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^ X? . ZUr . aut °^ is t c hen Steuerung eines oder mehrerer Gerate durch Sprachkommandos oder per 
Sprachdialog im Echtzeitbetneb und Vorrichtung zum Ausfuhren des Verfahrens 

^) Die Erfindung betrifft ein Sprachbediensystem. bei dem 
ein Verfahren zur automatfschen Steuerung von Geraten per 
Sprachdialog angewondet wird, das auf Verfahren zur 
Sprachausgabe, Sprachsignalvorverarbeitung und Sprach- 
erkennung, syntaktisch-grammatikalischer Nachverarbei- 
tung sowie Dialog-, AbJauf- und SchnittstaJlensteuerung 
basiert und dadurch gekennzeichnet ist, daS 

- Syntax- und Kommandostruktur wahrend des Echtzeit-Dia- 
Jogbetriebs fixiart sind, 

- Vorverarbeitung, Erkennung und Dlalogsteuerung fur Be- 
trieb in gerauschbehafteter Umgebung ausgelegt sind, 

- fur die Erkennung allgemeiner Kommandos kein Training 
durch den Benutzer erforderlich ist, 

- fur die Erkennung speziftscher Kommandos einzelner 
Benutzer ein Training notwendfg ist, 

- die Eingabe von Kommandos verbunden erfolgt, wobei die 
Anzahl der Worte, aus denen ein Kommando fur die 
Spracheingabe gebildet wird, yariabel ist, 

- eine echtzeitige Verarbeitung und Abwickiung des Sprach- 
dialoges gegeben ist, 

- die Sprachein- und -ausgabe im Freisprechbetrieb erfolgt. 
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Beschreibung 

Die Erfindung betrifft ein Verfahren zur automatic 
schen Steuerung ernes oder mehrerer Gerate durch 
Sprachkommandos oder per Sprachdialog im Echtzeit- 5 
betrieb gemaB Oberbegriff des Patentanspruchs 1 sowie 
eine Vorrichtung zum Ausfflhren des Verfahrens gemaB 
Oberbegriff des Patentanspruchs 50. 

Ein solches Verfahren ist bereits aus der DE 38 19 1 78 
Albekannt 10 

Verfahren bzw. Vprrichtungen dieser Art werden all- 
gemein in sogenannten Sprachdialog- bzw. Sprachbe- 
diensystemeh z. B. fur Fahrzeuge, Computer, Roboter, 
Maschinen, Anlagen usw. eingesetzt 

Ein SprachdiaJogsystem (SDS) laBt sich La. im wesent- 15 
lichen auf folgende Komponenten reduzieren (vgL hier- 
zu z. B.: F. Class, H. Katterfeldt, P. Regel: "Methoden 
und Algorithmen der Worterkennung , Y in: H. Mangold 
(Herausgeber): Sprachliche Mensch-Maschine-Kom- 
munikation (Verlag Oldenbourg, 1 992), Seiten 1 bis 13): 20 

• Spracherkennungssystem, welches ein eingesproche- 
nes Komxnando ("Sprachkommando") mit anderen er- 
laubten Sprachkommandos vergleicht und eine Ent- 
scheidung trifft, wetches Kommando aller Wahrschein- 
lichkeitnacheingesprochenwurde, 25 

• Sprachausgabe, welche die zur Benutzerf Qhrung er- 
forderlichen Sprachbefehle und Signalisierungstone 
ausgibt und ggf. das Erkennergebnis rflckmeldet, 

• Dialog- und Ablaufsteuerung, urn dem Benutzer zu 
verdeutlichen, welche Art von Eingabe erwartet wird, 
bzw. um zu prttfen, ob die erfolgte Eingabe konsistent ist 
mit der Aufforderung und mit dem momentanen Status 
der Applikation, und um die resultierende Aktion bei 
der Applikation (z. B. dem zu steuernden Gerat) anzu- 
stoflen, 

• KontroUinterface als Schnittstelle zur Applikation: 
Dahinter verbergen sich Hard- und Softwaremodule, 
um verschiedene Aktuatoren bzw. Rechner anzusteu- 
ern, die die Applikation beinhalten, 

• Applikation, die per Sprache angesteuert wird: 40 
Das kann z.B. ein Bestell- oder Auskunftsystem, ein 
CAE-Arbeitsplatz oder ein behindertengerechter Roil- 
stuhlsein. 

Die vorliegende Beschreibung konzentriert sich 
ohne Einschrankung auf die ailgemeine Anwendbarkeit 45 
der geschilderten Verfahren, Vorrichtungen und Ablau- 
fe — auf die Spracherkennung, die Dialogstruktur spwie 
auf eine spezielle Applikation in Kraftfahrzeugen. 

Die Schwierigkeiten bei bisher bekannten Losungen 
(vgL: z. B. T. Shinohara, N. Maeda, H. Asada: "Hands 50 
Free Voice Recognition Telephone For Automobile"; in: 
Proceedings of the ISATA-Conference 1990, Seiten 525 
bis 545 sowie H. Asada, H. Norimatsu, S. Azuma: "Spea- 
ker-Dependent Voice Recognition Algorithm For Voice 
Dialing In Automotive Environment"; in: Proceedings of 55 
the ISATA-Conference 1990, Seiten 547 bis 557) liegen 

a) in der Notwendigkeit, ein aufwendiges Training 
durchzuftihren, um das System auf die Charakteri- 
stik des jeweiligen Sprechers oder auf einen wech- 60 
selnden Wortschatz anzupassen. Die Systeme sind 
in der Regel entweder vollstandig sprecherunab- 
hangig oder vollstandig sprecherabhangig bzw. 
sprecheradaptiv, wobei letztere fur jeden neuen 
Benutzer einen Trainingslauf erfordern. Dies kostet 65 
Zeit und reduziert den Bedienkomfort bei haufig 
wechselnden Sprechern sehr stark. Aus diesem 
Grund ist bei herkdmmlichen Systemen auch der 



Vokabularumfang gering bei Applikationen, wo 
mit wechselnden Sprechern und Zeitnot der einzel- 
nen Sprecher zu rechnen ist, 

b) in dem unzureichenden Bedienkomfort, der darin 
zum Ausdruck kommt, dafi 

— das Vokabular auf ein Minimum begrenzt 
ist, um hohe Erkennsicherheit zu garantieren, 

— die Einzelworte eines Kommandos isoliert 
(d. h. mit Zwischenpausen) eingegeben wer- 
den, 

— Einzelworte quittiert werden mussen, um 
Fehler zu erkennen, 

— mehrstufige Dialoghierarchien abzuarbei- 
ten sind, um vielf altige Funktionen zu steuern, 

— ein Mikrofon in die Hand zu nehmen ist 
bzw. ein Headset getragen werden muft 

c) in der f ehlenden Robustheit 

— gegenuber Bedienfehlern 

— gegenuber storenden Umgebungsgerau- 
schen, 

d) in der aufwendigen und teueren Hardware-Rea- 
lisierung, vor allem bei mittleren und kleinen Stuck- 
zahlen. 

In der eingangs bereits genannten DE 38 19 178 Al 
wird ein Spracherkennungssystem beschrieben, bei dem 
die eingegebenen Sprachkommandos mittels eines spre- 
cherunabhangigen Verbundwort-Spracherkenners und 
eines sprecherabhangigen Zusatz-Spracherkenners er- 
30 kannt und gemaB ihrer Erkennungswahrscheinlichkeit 
klassifiziert werden. 

Bei diesem Spracherkennungsverfahren wird zuerst 
ein unbekanntes Sprachkommandomuster aus Merk- 
malen erzeugt, welche aus dem unbekannten Sprach- 
kommando extrahiert worden sind. Danach wird ein 
Ahnlichkeitsgrad zwischen dem erzeugten unbekannten 
Muster und Referenzmustern ermittelt, die sich zusanv 
mensetzen 



35 



a) aus Referenzmustern, die ausschlieBlich fur eine 
sprecherunabhangige Erkennung verwendet wor- 
den sind, und 

b) aus Referenzmustern, die ausschlieBlich fur eine 
sprecherabhangige Erkennung verwendet worden 
sind. 

Anschliefiend wird der Ahnlichkeitsgrad jedes Refe- 
renzmusters entweder bezuglich der sprecherunabhan- 
gigen oder bezuglich der sprecherabhangigen Erken- 
nung korrigiert, indem der ermittelte Ahnlichkeitsgrad 
einer vorgegebenen Operation unterzogen wird. Da- 
nach wird das Muster mit dem hochsten Ahnlichkeits- 
grad bestimmt. 

Die zugehorige Spracherkennungseinrichtung weist 
eine Koeffizientenspeichereinrichtung auf, um den er- 
haltenen Ahnlichkeitsgrad entsprechend zu korrigieren, 
sowie eine SpracWdentiMerungseinrichtung, um die 
Ahnlichkeitsgrade des Musters, das entweder bei einer 
sprecherunabhangigen oder bei einer sprecherabhangi- 
gen Erkennung geliefert worden ist, mit korrigierten 
Ahnlichkeitsgraden des Musters zu vergleichen und um 
das Muster mit dem hdchsten Ahnlichkeitsgrad zu be- 
stimmen. Das System kann per Sprachkonimando oder 
per Sprachdialog betrieben werden. 

Aus der DE 39 28 049 Al ist ein Verfahren zur auto- 
matischen Steuerung eiiies Archivierungssystems durch 
Sprachkommandos bekahnt, bei dem erkannte zulassige 
Sprachkommandos auf ihre Plausibilitat bin uberpruft 
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werden. 

Die Aufgabe der Erfindung besteht darin, zum einen 
ein Verf ahren anzugeben* mit dem mit mSglichst gerin- 
gem Aufwand ein oder mehrere Gerate durch Sprach- 
kommandos oder per Sprachdiaiog zuverlassig im Echt- 
zeitbetrieb gesteuert werden kdnnen. Ferner soil eine 
geeignete Vorrichtung angegeben werden, mit der das 
zu schaffende Verfahren ausgeifQhrt werden kana 

Die erfindungsgem&Be Lfisung der Aufgabe ist in be- 
zug auf das zu schaffende Verf ahren durch die Merkma- 
Ie des Patentanspruchs t und in bezug auf die zu schaf- 
fende Vorrichtung durch die^Merkmale des Patentan- 
spruchs 50 wiedergegeben. Die Obrigen Ansprttche ent- 
halten vorteilhafte Aus- und Weiterbildungen des erfin- 
dungsgemaBen Verfahrens (Anspruche 2 bis 49) sowie 
der erfindungsgemaBen Vorrichtung (AnsprQche 51 bis 

Der wesentliche Vorteil der Erfindung ist darin zu 
sehen, daB mit relativ geringem Aufwand eine zuverlas- 
sige Steuerung bzw. Bedienung von Geraten per 
Sprachkommando bzw. per Sprachdiaiog im Eehtzeit- 
betrieb mdglich ist 

Ein weiterer wesentlicher Vorteil ist darin zu sehen, 
daB eine der natflrlichen Sprechweise weitgehend ange- 
paflte Eingabe der Sprachkommandos bzw. Ftthrung 
des Sprachdialogs mit dem System mdglich ist und daB 
dem Sprecher hierfttr ein umf angreiches Vokabular von 
zulassigen Kommandos zur Verf ugung steht 

Em dritter Vorteil ist darin zu sehen, daB das System 
fehlertolerant arbeitet und in einer vorteilhaften Wei- 
terbildung der Erfindung z. B. auch nichtzulassige Wdr- 
ter, Namen, Laute oder Wortumisteilungen in den vom 
Sprecher eingegebenen Sprachkommandos La. als sol- 
che erkennt und aus dies en eingegebenen Sprachkom- 
mandos von dem Sprecher an sich gewollte zul&ssige 
Sprachkommandos extrahiert 

Im folgenden wird die Erfindung anhand der Figuren 
nSher erltutert Es zeigt 

Fig. 1 das Blockschaltbild einer bevorzugten Ausffih- 
rungsform der erfindungsgemaBen Vorrichtung zum 
Ausfuhren des erfindungsgemaBen Verfahrens 
("Sprachdialogsystem*), 

Fig. 2 eine detaillierte Darstellung des eigentlichen 
Sprachdialogsystems gemSB Fig. 1 , 

Fig. 3 das FluBdiagramm zu einer bevorzugten Aus- 
fuhrungsform der Segmentierung der eingegebenen 
Sprachkommandos fQr ein Sprachdialogsystem gem§B 
Fig. 2, 

Fig. 4 und 5 Ausftihrungsbeispiele von Hidden-Mar- 
kov- Modeller*, 

Fig. 6 den hardwaremafiigen Aufbau eines bevorzug- 
ten Ausfuhrungsbeispiels des Sprachdialogsystems ge- 
maBFig.2, 

Fig. 7 das Zustandsdiagramm fttr die Anwendung des 
Sprachdialogsystems gem£B Fig. 2 zur sprachgesteuer- 
ten Bedienung eines Telefons, 

Fig. 8 das FluBdiagramm zur Bedienung eines Tele- 
fons gem^B Fig. 7, 

Fig. 9 und 10 das FluBdiagramm zur Funktion "Na- 
menswahr (Fig. 9) bzw. "Nummemwahr (Fig. 10) bei 
der Bedienung eines Telefons gem&B FluBdiagramm 
nach Fig. 8; 

Das im folgenden beschriebene Sprachdialogsystem 
(SDS) in Fig. 1 umfaBt die Komponenten Spracheinga- 
be (symbolisch dargestellt durch ein Mikrofon), Sprach- 
erkennung, Dialog- und Ablaufsteuerung, Kommunika- 
tions- und Kontrollinterface Sprachausgabe mit ange- 
schiossenem Lautsprecher sowie (beispielhaft) eine Ap- 



plication, d. h. ein durch das SDS zu steuerndes bzw. zu 
bedienendes Gerat SDS und Applikation bilden zusam- 
men ein Sprachbediensystem (SBS), das in Echtzeit ("on- 
line^ betrieben wird. 
5 Die Syntax- und Dialogstruktur und die fQr aile Be- 
nutzers Sprecher verbindlichen Basissprachkommandos 
werden "offline 0 auBerhalb des SDS bzw. SBS (beispiel- 
haft) mit Hilfe einer PC-Workstation im "off-line Dialog 
Editormodus" erstellt und fixiert und zusammen mit vor- 
io zugebenden Parametern und Ablaufstrukturen dem 
SDS bzw. SBS vor Inbetriebname in Form von Datenfi- 
lesttbergeben. 

Das SDS der Fig. 1 ist in Fig. 2 im Detail dargestellt 
Ein (nicht gezeigtes) Mikrofon ist mit einem Analog/Di- 
15 gital-Wandler verbunden, der ttber Vorrichtungen zur 
Gerauschreduktion, Echokompensation und Segmen- 
tierung mit einem sprecherunabhangigen Verbund- 
wort-Spracherkenner und mit einem sprecherabhingi- 
gen Spracherkenner verbunden ist Die beiden Sprach- 
20 erkenner sind ausgangsseitig mit einer Einheit zur syn- 
taktisch-grammatikalischen und semantischen Verar- 
bekung der Erkenner-Ausgangssignale verbunden. Die- 
se Einheit wiederum ist mit der Dialog- und Ablauf- 
steuerung verbunden, die ihrerseits zum einen ttber 
25 Schnittstellen (z. B. D2B, V24, CAN, PCMCIA usw.) mit 
den (nicht gezeigten) Geraten verbunden ist, die Qber 
das SDS angesteuert bzw. bedient werden sollen. Die 
Dialog- und Ablaufsteuerung ist ferner mi' einer 
Spracheingabe-/Sprachausgabe-Einheit verbunden, die 
30 aus einem Sprachencdder, einem Sprachde coder und 
einem Sprachspeicher besteht 

Der Sprachencoder ist eingangsseitig an den Ausgang 
der Vorrichtung zur Ger§uschreduktion und ausgangs- 
seitig an den Sprachspeicher angeschlossen. Der 
35 Sprachspeicher ist ausgangsseitig an den Sprachdeco- 
der angeschlossen, der ausgangsseitig ttber einen Digi- 
tal/Analog- Wandler mit einem (nicht gezeigten) Laut- 
sprecher verbunden ist 
Die Vorrichtung zur Echokompensation ist Qber 
40 Schnittstellen mit (nicht gezeigten) Geraten/Sensoren 
verbunden; die ggf. zu kompensierende Audiosignale 
liefern. 

Der sprecherunibhangige Verbundwort-Spracher- 
kenner weist zum einen eine Einheit zur Merkmalsex- 
45 traktion auf, in der die Cepstrumsbildung und die Adap- 
tion des Erkenners u.a. an die analoge Obertragungs- 
charakteristik der eingehenden Signale durchgefiihrt 
werden, und zum anderen eine nachgeschaltete Einheit 
zur Klassifikation. 
50 Der sprecherabhangige Spracherkenner weist eben- 
falls zum einen eine Einheit zur Merkmalsextraktion 
und zum anderen ein Einheit zur Klassifikation auf, Zu- 
satzlich ist jedoch Qber einen Umschalter anstelle der 
Klassifikationseinheit eine Einheit zur Eingabe der spre- 
55 cherspezifischen Zusatzsprachkommandos zuschaltbar, 
die in den Trainingsphasen vor, wahrend oder nach dem 
Echtzeitbetrieb des SDS vom Erkenner trainiert wer- 
den sollen. Der sprecherabhangige Erkenner arbeitet 
z. B. nach dem Dynamic-Time- Warping(DTW)-Verfah- 
60 ren, nach dem dessen Klassifikationseinheit die Abstan- 
de zwischen dem zu erkennenden Kommando und vor- 
trainierten Referenzmustern feststellt-und das Refe- 
renzmuster mit dem geringsten Abstand als das zu er- 
kennende Kommando identifiziert. Alternativ hierzu 
65 kann aber auch der sprecherabhangige Erkenner mit 
Methoden der Merkmalsextraktion arbeiten, wie sie in 
sprecherunabhangigen Spracherkennern zur Anwen- 
dung kommen (Cepstrumsbildung, Adaption usw.). 
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Ira f olgenden wird die Funktionsweise des SDS naher 
erlautert 

• Das SDS beinhaltet — wie zuvor ausgefflhrt — zwei- 
erlei Spracherkennertypen zur Erkennung vorgegebe- 
ner Sprachkommandos. Die beiden Erkenner kdnnen 
wie folgtcharakterisiert werden: 

• Sprecherunabhangige Erkennung von verbunden ge- 
sprochenen Worten. Damit lassen sich aHgemeine Steu- 
erkommandos, Ziffern, Namen, Buchstaben etc erken- 
nen, ohne dafi der Sprecher bzw. Benutzer eines oder 
mehrere der benutzten Worte vorher trainiert haben 
muB. 

Weiterhin kann die Eingabe im Verbundwortmodus er- 
folgen, d h. eine Kombination mehrerer Worte, Ziffern, 
Namen ergibt ein Kommando, welches in einem Zug, 
& h. ohne Pause eingesprochen wird (z. B. das Komman- 
do: "Kreis mit Radius Ems"). Beim Algorhhmus zur 
(Classification handelt es sich urn einen HMM(Hidden- 
Markov-Modell)-Erkenner, der im wesentlichen auf 
Phonemen (Lautuntereinheiten) aufbaut und daraus 
Worte bzw. Kommandos zusammensetzt Das Vokabu- 
lar und die daraus aufgebauten Kommandos ("Syntax- 
struktur") werden vorab im Labor fixiert und dem Er- 
kenner in Form von Datenfiles Qbergeben ("off-line Dia- 
log Editierraodus"). Im Echtzeit-Betrieb kann das Voka- 
bular und die Syntaxstruktur des unabhlngigen Erken- 
ners vom Benutzer nicht modifiziert werden. 

• Sprecherabhangige Erkennung von benutzerVspre- 
cherspezifischen Namen oder Funktionen, die der Be- 
nutzer/Sprecher definiert und trainiert 

Der Brtnutzer/Sprecher hat die Mdglichkeit, ein person- 
iiches Yokabular in Form von Namenslisten, Funktions- 
listen eta anzuiegen bzw. zu editiereru Dadurch kann 
der Benutzer/Sprecher seinen personlichen Wortschaiz 
wahien und diesen jederzeit "on line" d h. im Echtzeitbe- 
trieb, an seine Bedftrf nisse anpassen. 
Als Beispiel fur eine Anwendung im Telefonumfeld sei 
die "Namensliste" genannt, d h. .das individuelle Ver- 
zeichnis von Namen, wobei 

— der Namen in einer Trainingsphase ein- oder 
mehrmals vom Benutzer eingesprochen wird (z. B. 
"Onkel Willi**) und dem Namen per Tastatureinga- 
be, vorzugsweise aber per unabhangigem Sprach- 
erkenner eine Telef onnummer zugeordnet wird 

— nach AbschluB des obigen Trainings und der 
Nummernzuweisung der Benutzer nur noch "dem 
sprecherabhangigen Erkenner einen Namen ("On- 
kel Willi") nennt, nicht aber die zugehorige Telefon- 
numraer, die dem System bereits bekannt ist 

Der sprecherabhangige Erkenner wird in der 

— einfachsten Form als Einzelworterkenner ausge- 
legt 

— in der leistungsfahigeren Form als Verbund- 
worterkenner, der nahtlos mit dem sprecherunab- 
hSngigen Erkenner gekoppelt ist ("Onkel Willi an- 
rufen w als vollstandiges Kommando, wobei das 
Wort "anrufen" Teil des sprechemnabh&ngigen Vo^ 
kabulars ist). 

Im Anschlufi an die Spracherkennung wird eine 
Nachverarbeitung der mit einer bestimmten Erkenn- 
wahrscheinlichkeit behafteten Ergebnisse der beiden 
Spracherkenner durchgefuhrt 

Der sprecherunabhangige Verbundwort-Spracher- 
kenner z. B. liefert mehrere Satzhypothesen in einer 
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Reihenfolge, welche die Erkenn^ahrscheinlichkeiten 
reprasentiert Diese Satzhypothesen berQcksichtigen 
bereits die erlaubte Syntaxstruktur, d h. innerhalb der 
syntaktischen Nachverarbeitung (Fig. 2) werden unzu- 

5 lassige Wortfolgen ausgesondert bzw. nach verschiede- 
nen Kriterien bewertet, wie wahrscheinlich die hierin 
auftretende Wortkombination ist Femer werden die 
von den Spracherkennern erzeugten Satzhypothesen 
auf ihre semantische PlausibQitit QberprGf t und danach 

to die Hypothese mit der hdchsten Wahrscheinlichkeit 
ausgewShlt 

Ein korrekt erkanntes Sprachkommando wird an die 
Dialogsteuerung weitergereicht und fOhrt anschlieBend 
zu einem diesem Sprachkommando zugeordneten Ein- 

ts griff auf die Applikation, wobei die Meldung Qber das 
Kontrollinterf ace weitergereicht wird 

Das hier skizzierte System ist im "on-line"-Betrieb 
durch eine fixierte Syntax- und Kommandostruktur, so- 
wie durch eine Kombination von fixiertem Yokabular 

20 (sprecherunabhangiger Erkenner) und frei definierba- 
rem Yokabular, wie z. B. Namen (sprecherabhangiger 
ErkennerX gekennzeichnet 

Dieser zunachst starr erscheinende Rahmen ist eine 
Yoraussetzung fQr hohe Erkennleistung bei groBem Vo- 

25 kabuiarumfang (bis zu mehreren hundert Worten), bei 
gerauschbehaf teter Umgebung, bei wechselnden akusti- 
schen Verhaitnissen in der Fahrgastzelle sowie bei vari- 
ierenden Sprechemu Der hohe Vpkabularumfang wird 
genutzt, urn die Benutzerfreundlichkeit durch Verwen- 

30 dung synonymer Worte btw, unterschiedlicher Aus- 
sprachevarianten zu erhohen. Auch erlaubt die Syntax 
die Umstellung von Worten in den Sprachkommandos, 
soz.B.: 

"GroBerer Radius bei linkem Kreis" 
35 oder — alternativ hierzu — • 
"Bei linkem Kreis groBerer Radius", 
wobei diese Alternativen jedoch von vorneherein bei 
der Festlegung mit dem "off-line Dialog Editor" definiert 
sein muss en. 

40 Der hier skizzierte Losungsansatz erweist sich inso- 
fern als vorteilhaft, als 

• die Yerbundwprteingabe von Kommandos natOrli- 
cher und schneller ist als die Isoliertworteingabe. Die 
Praxis hat insbesondere gezeigt, daB der unbefangene 

45 Benutzer schwer daran zu gewohnen ist, abgehackt (mit 
deutlichen Zwischenpausen) zu sprechen, urn ein Mehr- 
wortkommando einzugeben (die Akzeptanz derartiger 
Systeme ist deshalb deutlich geringer), 

• die Eingabe z. B. von Ziffern- oder Buchstabenkolon- 
50 nen im Verbund leichter ist und weniger Konzentration 

erfordert als die Einzeleingabe, 

• die Dialogfuhrung natiirlicher ist, weil z. B. bei Zif- 
fernkolonnen nicht jede Einzelziffer quittiert werden 
muB, sondern nur der eingegebene Ziff ernblock, 

55 • wegen des Wortschatzes von z. B. bis zu einigen hun- 
dert Worten eine Vielzahl von Funktionen per Sprache 
bedienbar sind, die vorher manuelle Bedienung erfor- 
derten, 

• die Menge manueller Schaltelemente reduziert wer- 
60 den kann bzw. bei Spracheingabe die Hande anderwei- 

tig benutzbar sind, z. B. bei der Qualitatskontrolle von 
Motoren. 

Der Bedienkomfort wird bei dem yorliegenden Sy- 
stem weiterhin erhdht durch Nutzung von Freisprech- 
65 mikrofon(en) und Yerzicht auf Headset (Kopfhdrer und 
Lippenmikrofon) bzw. Handmikrofon. Das erfordert al- 
lerdings eine leistungsf ahige Gerauschreduktion (Fig* 2) 
sowie ggf. eine Echokompensation von Signalen, die 
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z. B. aus dem Dialog- oder anderen Lautsprechern stam- 



men. 

Die vorgeschlagene Echokompensation erlaubt es 
insbesondere, der Sprachausgabe ins Wort zu fallen, 
d. h. den Erkenner anzusprechen, wahrend die Sprach- 
ausgabe aktiv ist. 

Gieichzeitig kdnnen im Labor per "off-line Dialog 
Editor" jederzeit das Vokabular und die Kommandos 
verandert werden, ohne daB dies ein neues Training mit 
einer Vielzahl von Sprechem fQr die neuen Worte des 
sprecherunabhangigen Erkenners bedarf. Der Grund 
Iiegt darin, daB im Labor die Datenbank fQr sprecherun- 
abhangige Phoneme vorliegt und aus diesen Phonemen 
mit der vorhandenen Entwicklungsumgebung ohne wei- 
teres neue Worte und Kommandos generiert werden 
kdnnen. Letztiich lauft eine Kommando- oder Vokabu- 
laranderung darauf hinaus, die im Labor mit dem Ent- 
wicklungssystem berechneten neuen Parameter und 
Daten als DatenHle in den sprecherunabhangigen "Echt- 
zeit-Erkenner" zu aberspielen und dort im Speicher ab- 
zulegea 

Mitteis des vofgeschlagenen SDS kSnnen sowohl 
Funktionen innerhalb des Computers, in dem das SDS 
eingebaut ist, als auch externe Gerate bedient werden. 
Das SDS weist neben einer PCMCIA-Schnittstelle noch 
Schnittstellen auf, welche ffir externe Gerate zugangiich 
sind Dies sind zum Beispiel: 

V24-Schnittstelle, optischer Daten-Steuerbus, CAN-In- 
terface usw. Optional kann das SDS mit weiteren 
Schnittstellen ausgestattet werden. 

Das SDS wird v orzug sweise durch Betarigen einer 
push-totalk-Taste (PTT) oder durch ein definiertes 
SchlOsselwort aktiviert Die Abschaltung nach Beendi- 
gung eines Kommandos erfolgt automatisch durch die 
interne Segmentierung des SDS. In gerluscharmer Um- 
gebung kann das SDS auch kontinuieriich aktiviert sein. 
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3. Segmentierung 



Die Segmentierung setzt — , wie in Fig. 3 gezeigt — 
auf spektraltransformierten Daten auf. Hierzu werden 
s die Signale blockweise zusammengefafit (frame) und 
mit einer schnellen Fouriertransformation (FFT) in den 
Frequenzbereich umgesetzt Durch Betragsbildung und 
Gewichtung mit einem gehdrbezogenen MEL-Filter, 
d h. einem dem melodischen Empfinden der Tonh6he 
lb nachgebildeten Filter, bei den* eine gehdrbezogene Ein- 
teilung des Sprachbereiches (-200 Hz bis -6 kHz) in 
einzelne Frequenzbereiche ("Kanaie") durchgefQhrt 
wird, werden die Spektralwerte zu Kanalvektoren zu- 
sammengefafit, die die Leistung in den verschiedenen 
15 Frequenzbandern angeben. Im AnschluB erfolgen eine 
Grobsegmentierung, die permanent aktiv ist und Kom- 
mandoanf ang sowie Kommandoende grob erfaBt, sowie 
eine Feinsegmentierung, die im AnschluB daran die ge- 
nauenGrenzen festlegt 

20 

4. Merkmalsextraktion 



Ablaufbeschreibung 

An dieser Stelle sei betont, daB das SDS in Fig. 2 nur 
ein Beispiel ist ffir ein nach der Erfindung mogliches 
SDS. Die Konfiguration der Schnittstellen zur Daten- 
eingabe bzw, Datenausgabe bzw. zur Steuemng der an- 
geschlossenen Komponenten ist hier ebenfalls nur bei- 
spielhaf t dargesteilt 

Die dargestellten Funktionsblocke werden im folgen- 
den naher erlautert 

1. Gerauschreduktion 

Diese ermoglicht es, stationare oder quasi-stationare 
Umgebungsgerausche vom digitalisierten Sprachsignal 
zu unterscheiden und diese vom Sprachsignal abzuzie- 
hen. Gerausche dieser Art sind Z.B.: Fahrgerausche in 
einem Kraftfahrzeug (Kfz), Umgebungsgerausche in 
Labors und BOros wie Lufter oder Maschinengerausche 
in Fabrikationshalleh. 

« 

2. Echokompensation 

Ober die Echokompensation werden die digitalisier- 
ten Lautsprechersignale z. B. der Sprachausgabe bzw. 
eines eingeschalteten Radios Qber adaptive Filteralgo- 
rithmen vom Mikrofonsignal subtrahiert Die Filteral- 
gorithmen bilden den Echopfad vom Lautsprecher zum 
Mikrofon nach. 



Der Merkmalsextraktor berechnet aus den digitali- 
sierten und segmentierten Sprachsignalen Ober mehrere 
25 Stufen hinweg Merkmaisvektoren und bestimmt den 
dazugehdrigen normierten Energiewert 

Dazu werden beim sprecherunabhangigen Erkenner 
die Kanalvektoren mit einer diskreten Cosinustransfor- 
raation (DCI) in Cepstralvektoren transformiert Zu- 
30 satzlich wird die Energie des Signals berechnet und nor- 
miert Parallel dazu wird eine iaufende Mittelwertbe- 
rechnung der Cepstralwerte durchgeffihrt mit dem Ziei, 
den Erkenner sowohl an den momentanen Sprecher als 
auch auf Obertragungscharakteristiken, z. B. des Mikro- 
35 fons und des Kanals (Sprecher Mikrofon) zu adaptie- 
ren. Die Cepstralvektoren werden von diesem adaptier- 
ten Mittelwert befreit und mit der zuvor berechneten 
normierten Energie zu sogenannten CMF-Vektoren 
(Cepstralkoeffizienten mittelwertfrei) zusammengefafit 

40 

5. Klassifikation des sprecherunabhangigen 
Verbundwort-Spracherkenriers 



45 



5.1 Hidden-Markov-Modell(HMM) 



Ein Hidden-Markov-Modell ist eine Ansammlung 
von Zustanden, die untereinander durch Obergange 
verbunden sind (Fig. 4). 

. Jeder Obergang, von einem Zustand qi zum anderen 

50 q> wird durch eine sogenannte Obergangswahrschein- 
lichkeit beschrieben. Jedem Knoten (Zustand) ist ein 
Vektdr von sogenannten Enussionswahrscheiniichkei- 
ten der Lange M zugeordnet Ober diese Emissions- 
wahrscheiniichkeiten wird die Verbindung zur physika- 

55 lischen Welt hergestellt Die Modellvorstellung geht so- 
weit, daB in einem bestimmten Zustand qi eines von M 
verschiedenen Symbolen "emittiert" wird, entsprechend 
der zustandsbezogenen Emissionswahrscheinlichkeit 
Die Symbole stehen stellyertretend fQr die Merkmals- 

60 vektoren. Die Folge von w emittierten ,J Symbolen, die das 
Model! erzeugt, sind sichtbar. Die konkrete Abfolge der 
Zustande, die innerhalb des Modells durchlaufen wer- 
den, ist dagegen nicht sichtbar (engl. ''hidden"); 

Ein Hidden-Markov-Modell ist diirch folgende Gro- 

65 Ben definiert: 

• T Anzahl der Symbole 

• t Zeitpunkt fur ein beobachtetes Symbol, t = 1...T 

• N Anzahl der Zustande (Knoten) des Modells 
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• M Anzahl der moglichen Symbole («= Codebuchgro- sche Zeitnormierung, Neuronale Netz-Klassifaktoren), 
Be) die ein Training im Echtzeitbetrieb erlauben. Es handelt 

• Q Zust&nde des Modells {q 1 , q2, . . . qri} sich hierbei in erster Linie um Einzel worterkenner, wo- 
' • V Menge der mdglichen Symbole bei hier vorzugsweise das Verfahren der dyn amischen 

• A Obergangswahrscheinlichkeit vom einem Zustand 5 Zeitnormierung zum Einsatz kommt Um die Benutzer- 
in einen anderen freundlichkeit zu erhdhen, wird eine Kombination von 

• B Wahrscheinlichkeit f Or ein Ausgabesymbol in ei- sprecherabhangigem und sprecherunabhangigem Er- 
nem Zustand des Modells (Emissionswahrscheinlich- kenner im Verbuiidwortmode vewendet ("Gloria anru- 
keit) fen* "Neues Ziel Onkel Willi" "Funktion Schragellipse 

• 71 Wahrscheinlichkeit fQr den Anfangszustand des to darstellen") wobei die Namen "Gloria", "Onkel Willi" 
Modells (beim Training des HMM's). "Schr§geIIipse ,, vom Benutzer beim Training ffei ge- 

Unter Benutzung der Wahrscheinlichkeitsverteilun- ~w3hlt wurden und samt den zugehdrigen Telefonnum- 
gen A und B konnen mit Hilf e dieses Modells Ausgabe- mern/Zieladressen/Funktionsbeschreibungen in ent- 

. symbole erzeugt werden. sprechenden Listen abgelegt wurden. Den Vorteil dieses 

15 Losungsansatzes liegt darin, daB ein bis zwei (oder noch 

52 Aufbau des phonembasierten HMM-Erkenners mehr) Dtalogschritte eingespart werden. 

Bei einem Spracherkennungssystem mit grdBerem 7. Nachverarbeitung: Syntax und Semantikprttfung 
Wortschatz basiert die Worterkennung zweckmaBiger- 

weise nicht auf Ganzwdrtern, sondern auf phone tischen 20 Das SDS beinhaltet eine leistungsfahige Nachverar- 

Wortuntereinheiten. Eine solche Wortuntereinheit ist beitung der vom Spracherkenner gelief erten Ergebnis- 

zum Beispiel ein Laut, ein Diphon (Doppellaut) oder ein se. Dazu gehdren die syntaktischen Pruf ungen dahinge- 

LautQbergang. Ein zu erkennendes Wort wird dann hend, ob die ermittelten Satzhypothe^en dem a priori 

durch die Verkettung der entsprechenden Wortunter- festgelegten Aufbau der Sprachkommandos ("Syntax*) 

einheiten-Modelle dargestellt In Fig. 5 ist als Beispiel 25 entsprechen. Falls nicht, werden die entsprechenden 

einer solchen Darstellung mit verketteten Hidden-Mar- Hypothesen verworfen* 

kov-Modeilen zum einen die standardphonetische Be- Weiterhin werden die vom Spracherkenner geliefer- 

schreibung des Wortes "braten" (Fig. 5a) sowie zum an- ten Satzhypothesen auf ihren Sinn und auf ihre Plausibi- 

deren die phonetische Beschreibung von Ausspracheva- litat uberprttft 

rianten (Fig. 5b) dargestellt Diese Wortuntereinheiten- 30 Nach dieser PlausibilitatsprQfung wird die aktive 

Modelle werden bei der Ersteilung des Systems an Satzhypothese entweder an die Dialogsteuerung wei- 

StichprobenvielerSprechertrainiertundbildendieDa- tergereicht oder zurttckgewiesen. 

tenbasis, auf der der "offline Dialog Editor" auf setzt Im Falle einer RQckweisung wird die nachstwahr- 

Dieses Konzept mit Wortuntereinheiten hat den Vor- scheinliche Hypothese des Spracherkenners hergenom- 

teiU daB neue Wdrter relativ einfach in das vorhandene 35 men und auf gleiche Art und Weise behandelt 

Lexikon auf genommen werden konnen, da die Parame- Im Falle eines syntaktisch korrekten und plausiblen 

ter fQr die Wortuntereinheiten schon bekannt sind, Kommandos wird dieses zusammen mit der Beschrei- 

Theoretisch kann mit diesem Erkenner ein beliebig bung der Bedeutung an die Dialogsteuerung weiterge- 

groBes Vokabular e kannt werde. In der Praxis wird geben. 

man jedoch durch b^schrSnkte Rechenleistung und fQr 40 

die jeweilige Anwendung notwendige Erkennungslei- 8. Dialog- und Ablaufsteuerung 
stung an Grenzen stoBen. 

Die Kiassif ikation basiert auf dem sogenannten Viter- Die Dialogsteuerung reagiert auf den erkannten Satz 

bialgorithmus, in welchem die Wahrscheinlichkeit jedes und bestimmt die auszuf Qhrenden Funktionen. So z. B. 

Wortes fur die einlaufende Symbolfolge berechnet wird, 45 legtsiefest 

wobei ein Wort hier als Verkettung verschiedener Pho- • welche Ruckfragen, Informationen oder Aufforde- 

neme zu verstehen ist Der Viterbialgorithmus wird er- rungen an den Benutzer ausgegeben werden, 

ganzt durch eine Wortfolgestatistik ("Language Mo- '• welche Aktuatoren wie angesprochen werden, 

dell"), d. h. die im "off-line Dialog Editor* spezifizierten • welche Systemmodule aktiv sind (sprecherunabhan- 

Mehrwortkommandos liefern die erlaubten Wortkom- 50 giger Erkenner, Training) 4 

binationen. Im Extremfall beinhaltet die Klassifikation • welche Teilwortschatze (Teilvokabularien) fur die als 

auch die Erkennung und Aussonderung von FQllauten nachstes erwartete Antwort aktiv sind (z, B. nur Ziffern). 

(Ah, Hmm, R&usperer, Pausen) oder "Garbagewortern" Des weiteren behait die . Dialogsteuerung den Ober- 

("Nichtwdrtern''). "Garbagewdrter" sind sprachliche Er- blick Qber den Status der Applikation, soweit der dem 

ganzungen, die den eigentlichen Sprachkommandos — 55 SDS mitgeteilt wird. Der Dialogsteuerung unterlagert 

unndtigerweise — vom Sprecher hinzugefQgt werden, ist die Ablaufsteuerung, die die einzelnen Prpzesse zeit- 

die aber in den Vokabularien des Spracherkenners nicht lien und logisch kontrolliert 
enthalten sind Beispielsweise kann der Sprecher das 

Kommando "preis mit Radius eins" noch erweitern um 9. Kommunikations- und Kontrollinterface 

Begriffe wie "Ich mdchte jetzt einen ..." oder "Bitte 60 

einen ..." Hier wird die Kommunikation mit den angeschlosse- 

nen Peripheriegeraten abgewickelt 

6. Sprecherabhangiger Erkenner . Dazu stehen verschiedene Schnittstellen zur Verfu- 

gung. Das SDS setzt La. allerdings nicht alle diese 

Fur die sprecherabhSngige Erkennung wird auf derr 65 Schnittstellen voraus. Die in der Fig. 2 genannten sind 

selben Vorverarbeitung aufgesetzt wie fQr den spre- nur Moglichkeiten einer Implementierung. 

cherunabhangigen Erkenner. Aus der Literatur sind un- Das Kommunikations- und FControllinterf ace wickelt 

terschiedliche Losungsansatze bekaiint (z. B. dyn ami- insbesondere die Sprachein- und -ausgaben z.B. Qber 
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A/D-bzw. D/A-Wandler ab. 



10. SpracheirtgabeAausgabe 

Die Sprachein/ausgabe setzt sich zusammen aus ei- 
nem "Sprachsignal-Kompressionsmodur ( =» "Sprachen- 
codef% der die Redundanz bzw. Irrelevanz aus dem 
digitalisierten Sprachsignal entzieht und somit ein 
Sprachsignal definierter Dauer in einem erhebiich klei- 
neren Speicher als direkt nach der A/D-Wandlung able- 
gen kann. Die komprimierte Information wird in einem 
Sprachspeicher abgelegt und f(ir die Ausgabe im 
"Sprachdecoder* regeneriert, so daB das ursprOngliche 
eingegebene Wort ohne grdBeren QualitStsverlust wie- 
derh6rbarist 

FQr die Dialogf tihrung sind im Sprachspeicher bereits 
von vorneherein ("off-line Dialog Editor") eine Reihe 
yon Kommandos, Hilfstexten oder Anweisungen abge- 
legt, die den Benutzer bei der Bedienung unterstutzen 
sollen, bzw. ihm Informationen von der Applikationssei- 
te her zukommen lassen. 

Weiterhin wird die Sprachcodierung wihrend des 
Trainings ftir den sprecherabhingigen Erkenner akti- 
viert, da der vom Benutzer eingesprochene Namen 
gleichfalls in den Sprachspeicher kommt Der Benutzer 
kann durch Abhoren seiner Namensliste jederzeit aku- 
stisch Qber den Inhalt, d. h. die einzelnen Namen infor- 
miert werden. Bezuglich Sprachcodier- und -decodieral- 
gorithmus werden Verfahren angewandt, die aus der 
Uteratur bekannt sind und per Software auf einem pro- 
grammierbaren Prozessor implementiert werden. 

In Fig. 6 ist ein Beispiel f Or einen mdglichen Hardwa- 
reaufbau der SDS gem&B Fig. 2 dargestellt Die Konfi- 
guration der einzelnen FunktionsblScke sowie die 
Schnittstellen zur Datenein- und Datenausgabe bzw. 
zur Steuerung der angeschlossenen Komponenten ist 
hier nur beispielhaft dargestellt Der hier angenommene 
aktive Wortschatz (Vokabular) fur sprecherunabhangig 
gesprochene Worte kann z.B. einige hundert Worte 
umfassen. 

Der digitale Signalprozessor (DSP) ist ein handelsilb- 
licher programmierbarer Prozefeor, der sich von einem 
Mikroprozessor durch andere Busarchitektur (z. B. Har- 
vard- Architektur statt Von-Neumann-Architektur), 
spezielle 'Wchip'-Hardware-Rechenwerke (Multipii- 
zierer/Akkumulatoren/Shifter eta) und I/O-Funktiona- 
litSten auszeichnet, die bei echtzeitiger digitaler Signal- 
verarbeitung ben6tigt werden. In zunehmendem MaBe 
bieten leistungsfahige RISC-Prozessoren ahnliche 
Funktionalitaten wie DSPs und konnen diese ggf. erset- 
zen. 

Der DSP (bzw. ein anderer Mikroprozessor ver- 
gleichbarer Leistungsf&higkeit) kann mit Ausnahme 
spezieller Interface-Kontrollfunktionen samtliche in 
Fig. 2 dargestellte Funktionen per Software bzw. inte- 
grierter Hardware abwickeln. Mit derzeit handelsiibli- 
chen DSPs lassen sich mit dem hier vorgestellten Kon- 
zept Wortschatze von z. B. ca. 100 bis 200 Worten reali- 
sieren, wobei da von ausgegangen wird, daB dieser 
Wortschatz vollstandig zur Auswahl steht als "aktives 
Vokabular" und nicht durch Bildung von iTeilvokabula- 
rien erhebiich kleiner ist Far den Fall, daB Teilvokabu- 
larien gebildet werden, kann jedes davon die genannte 
GrdBe umfassen. 

Durch die Hardwarestruktur gemaB Fig. 6 und insbe- 
sondere durch den Verzicht auf zusatzliche Spezialbau- 
steine filr die Erkennung und/oder fur Dialogabwick- 
lung, Ablaufsteuerung, Sprachkodierung und Interface- 



Protokollabwicklting bietet sich die Chance einer Reali- 
sierung mit einer kompakten, kostengilnstigen Hardwa- 
re mit niedrigem Stroroverbrauch. Durch die technolo- 
gische Weiterentwicklung werden zukflnf tig hdhere Re- 
5 chenleistungen auf den DSPs verfQgbar sein und groBe- 
re Speicherbereiche adressierbar sein, so daB umf ang- 
reichere Vokabularien bzw. leistungsfahigere Algorith- 
men realisierbar sein werden. 
Das SDS wird dur ch di e an den DSP angeschlossene 

io "push-totalk"-Taste (PTT) aktiviert Bin Bestatigen die- 
ser Taste veranlaBt die Steuersoftware, den Erkennvor- 
gang zu starten. Teile der Signalverarbeitungssoftware 
sind immer aktiv (Ger&uschreduktion, Echokompensa- 
tion), wahrend die Klassifikation oder die Dialogsteue- 

15 rung erst durch die PTT aktiviert werden. Im einzelnen 
sind folgende Module vorhanden: 
• A/D- imd D/A-Wandler: 

Ober einen angeschlossenen A/D- und D/A-Wandler 
werden 

20 



— das Mikrofonsignal und ggf. die Lautsprechersi- 
gnale digitalisiert und zur weiteren Verarbeitung 
an den DSP Qbertragen, 

— die digitalisierten Sprachdaten zur Sprachausga- 
25 be/ Dialogsteuerung in ein Analogsignal zurtickge- 

wandeit, verstarkt und an ein geeignetes Wiederga- 
bemedium (z. B. Lautsprecher) weitergereicht 

• D2B optical: 
30 Dies ist ein optisches Bussystem, Qber welches diverse 

Audio- und Informationsgerate gesteuert werden kon- 
nen (z. B.; Autoradio und CD Wechsler, Autotelefon und 
Navigationsgerlte . . .> Dieser Bus ubertrSgt nicht nur 
Steuer-, sondern auch Audiodaten; im Extremfall (d. h 
35 wenn Mikrofon- und Lautsprechersignal hieriiber ge- 
schickt werden) erfibrigt sich A/D- und D/A-Wandlung 
imSDS. 

• GANBus; 

Dies ist ein Bussystem, Qber welches Informationsgerate 
40 und Aktuatoren im Kfz gesteuert werden konnen; Au- 
dioabertragung ist in der Regel nicht mdglich. 

• V24-SchnittsteJle: 

Diese Schnittstelle kann zur Steuerung diverser Peri- 
pheriegerate dienen. Weiterhin kann Qber diese Schnitt- 
45 stelle die Software des SBS aktualisiert werdea So kann 
ein entsprechender Wortschatz oder eine entsprechen- 
de Sprache (z. B.: Deutsch, Englisch, Franzosisch . . .) ge- 
laden werden. 

• PCMCIA-Interface; 
so Diese Schnittstelle dient neben der Kommunikation mit 

einem Desktop- oder Portable Computer auch der 
Spannungsversorgung des SDS. Mehrere der oben an- 
gefuhrten Funktionen konnen hier zusammengefaBt 
werden. Weiterhin beschreibt diese Schnittstelle neben 
55 den elektrischen Eigenschaften auch die mechanischen 
Abmessungen des SDS. Diese sind z. B. so ausgew^hlt, 
daB das SDS in einen PCMCIA-Schacht eines Desktop- 
oder Portable Computers gesteckt werden kanii. 

• Speicher: 

60 Der an den DSP angeschlossene Speicher (Daten/Pro- 
gramm-RAM und ROM) dient dem DSP als Programm 
und Datenspeicher. Ferner beinhaltet dieser die spezifi- 
schen KJassifikations-Modelle und ggf. die Referenzmu- 
ster far die beiden Spracherkenner und die Festtexte 
65 zur Dialogsteuerung und zur Benutzerffihrung. In einem 
FLASH- oder batteriegepuf ferten Speicher werden die 
benutzerspezifischen Informationen abgelegt (Adress-, 
Datenlisten). . 
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Funktionsbeschreibung arn Beispiel eines kann durch eine Abbruchfunktion (Abbruchtaste) ein 

sprachbedienten Autotelefons Wahlen der Teiefonnummer verhindert werden. Alter- 
nate hierzu ist auch eine Ruckfrage des SDS denkbar; 

Im folgenden sind nun die Dialogablaufe exempla- ob die dem Sprachkommando zugeordnete Aktion/ 

risch am Beispiel einer sprachgesteuerten Telefonsteue- 5 Funktion ausgefQhrt werden soli oder nicht 

rung(z. B.ineinemKJz)beschrieben. Der Umfang des Telefonbuches kann je nach Auf- 

Dieses Beispiel laflt sich erweitern auf die Ansteue- wand bzw. Speicherplatz z. B. 50 oder mehr gespeicher- 

rung von Telefon + Radio + CD + Navigation im Kfz te Namen umfassen. Die Funktionsablaufe des Betriebs- 

bzw. auf die Bedienung eines CAE- Arbeitsplatzes o.a. zustandes "Namenswahl" sind in Fig. 9 in Form eines 

Charakteristischistfur jedes dieser Beispiele: to FluBdiagramms dargestellt 

— ■ Die sprecherunabhangige Erkennung von Betriebszustand "NummeniwahT (Fig. 10) 

Mehrwortkommandos, sowie Buchstaberi- oder 

Ziffernkolonnen, Dieser Zustand setzt voraus, daB das entsprechende 

" — die sprecherabhangige Eingabe eines vom Be- 15 SchlQsselwort iichtig erkannt wurde. In diesem Zustand 
nutzer vorher trainierten, freigewahlten Namens, erfolgt die Wahl einer Teiefonnummer durch eine Ein- 
dem zugeordnet ist eine Funktion, ein Zahlencode gabe einer Zahlenfoige. Die Eingabe erfolgt verbunden 
(z. B. Teiefonnummer eines Telefonbuches oder undsprecherunabhangig. 

Senderfrequenz einer Radiosenderliste) oder eine Der Spracherkenner fordert zur Eingabe einer Num- 
Buchstabenkombination (z. B. Zielort bei Naviga- 20 mer auf. Diese wird dem Benutzer bestatigt Nach. der 
tionssystemen). AufforderungVahlen* wird die Verbindunghergestellt 

Bei der Definition der Zuordnung gibt der Benut- Sollte die Nummer falsch verstanden worden sein, so 
zer die Funktion, Buchstaben- oder Ziffernkombi- kann durch eine Fehlerfunktion die Nummer korrigiert 
nation im sprecherunabhangigen Verbundwortmo- werden oder Qber eine Abbruchfunktion, z. B. dem 
de ein (wobei die Funktion, die Buchstaben, Ziffern 25 Kommando "Beenden" die Sprachbedienung abgebro- 
Teil des zulassigen Vokabulars, Ah. mit "off-line' chen werden. 

Dialog Editor" vorab festgelegt sein mQssen). Die Funktionsabiaufe des Betriebszustandes "Num- 

— Mit dieser Namenswahl verbunden ist stets die mernwahl w sind in Fig. 10 in Form eines FluBdiagramms 
Verwaltung einer entsprechenden Liste unter- dargestellt 
schiedlicher Namen desselben denutzers (Telefon- 30 

buch, Senderliste, Zielortlisc e). Diese Liste kann er- Betriebszustand "Verbindung" 

weitert, geldscht, abgef ragt oder korrigiert werden. 

Die Verbindung ist aufgebaut In diesem Zustand ist 
Zustandsdiagramm SDS (Fig. 7) die Spracherkennungseinheit deaktiviert Das Telefon- 

35 gesprach wird z. B. durch die Abbruchtaste beendet 

Wahrend der Bedienung des Telefons fiber die 
Spracheingabe nimmt diese unterschiedliche Zustande Betriebszustand "Nummer speichern/Namen speichera" 
ein. Die Obergange werden durch Aufierung von 

Schltisselworten gesteuert, wobe:' die Einleitung einer Nachdem auf das SchlQsselwort "Nummer speichern" 
AuBerung durch die PTT-Taste erfolgt Ein Gesprachs- 40 bzw. "Namen speichern" hin das SDS den Benutzer/ 
abbruch erfolgt z. B. durch eine Abbruchtaste. Sprecher aufgefordert hat, die Ziffern einzugeben und 

der Benutzer diese eingesprochen hat (vgL Betriebszu- 
Betriebszustand "Deaktiviert" stand "Nummernwahl") wird anstelle des Kommandos 

"wahlen" das Kommando "speichern" bzw. ein vergleich- 
Das Sprachdialogsystem ist in diesem Zustand abge- 45 bares eingegeben. Die Teiefonnummer wird numnehr 
schaltet gespeichert Das SDS fordert anschlieBend den Benut- 

zer auf, den zugehdrigen Namen einzusprechen und I§Bt 
Betriebszustand M AkuV(F1g. 8) die Namenseingabe zur Verbesserung des Trainingser- 

gebnisses ein- oder mehrfach wiederholen. Nach dieser 
Das Sprachdialogsystem ist aktiviert und wartet nun 50 Wiederholung ist der Dialog beendet Zu erganzen ist, 
auf die zur weiteren Steuerung der Peripheriegerate daB die anfangliche Zifferneingabe durch Dialog-Kom- 
erlaubten Kommandos. Die Funktionsabiaufe des Be- mandos wie "abbrechen" bzw. "Abbruch", "wiederholen" 
triebszustandes "Aktiv" sind in Fig. 8 in Form eines "korrigieren" bzw. "Korrektur", "Fehler** usw. kontrol- 
FluBdiagramms (beispielhaft) dargestellt liert werden kann. 

■ • / 55 

Betriebszustand "NamenswahT (Fig; 9) Betriebszustand "Telefonbuch iSschen/Namen loschen" 

Dieser Zustand setzt voraus, daB das entsprechende In Zusammenhang mit dem "Telefdnbuch" (Liste aller 

Schliisselwort "Namenswahl" bzw. 'Telefon Namens- trainierten Namen und zugehdrigen Telefonnummern) 

wahl" o. a. richtig erkannt wurde. In diesem Zustand ist 60 sind eine Reihe von Editierfunktionen definiert, die den 

die Wahl einer Teiefonnummer durch eine Eingabe ei- Komfprt des Systems fur den Benutzer erhohen, wie 

nes Namens moglich. Dazu wird auf einen sprecherab- z. B.: 

hangigen Spracherkenner umgeschaltet Telefonbuch loschen: 

Das Sprachdialogsystem fordert zur Eingabe eines Komplettes oder selektives Loschen, wobei durch 

Namens auf. Dieser wird dem Benutzer bestatigt Das 65 Ruckfrage ("Sind sie sicher?") des SDS vor dem endgul- 

Sprachdialogsystem schaltet nun wieder auf den spre- tigen Loschen und durch ggf. Ausgabe des spezifischen 

cherunabhangigeh Erkenner um. Namens ein versehentlichen Loschen durch Erken- 

So lite der Namen falsch verstanden worden sein, so nungsfehler vermieden wird. 
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Nam en loschen: 
Das SDS fordert den Benutzer auf, den zu ldschenden 
Namen zu sprechen. Der Name wird vom SDS wieder- 
holt Danach wird der Benutzer mit der Frage "Sind sie 
sicher?" aufgefordert, den Loschvorgang zu bestatigen: 5 
Die Eingabe des Sprachkommandos w Ja* veranlaBt das 
Ldschen des Namens aus dem Telefonbuch. 

Jedes andere als Sprachkommando eingegebene 
Wort beendet den Dialog. 

Betriebszustand Telefonbuch anhdren": 10 
Das SDS sagt das gesamte Telefonbuch an. Ein Bestati- 
gen der FIT oder die Eingabe eines Abbruchkomman- 
dos bricht den Dialog ab. 

Betriebszustand Telefonbuch waUen": 
Das SDS sagt das Telefonbuch komplett an- Wird bei 15 
dem gewQnschten Name n ein A bbruch- oder Wahlkom- 
mando gegeben bzw. die PTT betatigt, so wird der aus- 
gewaiilte Namen noch einmal angesagt und nachgefragt 
"Soil die Nummer gew&hlt werden?" Die Eingabe des 
Sprachkommandos "Ja* veranlaBt den Wahlvorgang, 20 
d h. die Verbindung wird hergestellt 

"Nein" veraniaBt das SDS, das Ansagen des Telefon- 
buches fortzusetzen. 
"Abbruch/abbrechen* beendet den Dialog. 
Die Eigenschaften des zuvor beschriebenen SDS kon- 25 
nenwiefolgtzusammengefaflt werden: 
Benutzt wird ein Verfahren zur automatischen Steue- 
rung und/ oder Bedienung von einem oder mehreren 
Geraten per Sprachkommandos bzw. per Sprachdialog 
im Echtzeitbetrieb, bei dem Verfahren zur Sprachaus- 30 
gabe, Sprachsignalvdrverarbeitung und Spracherken- 
nung, syntaktisch-grammatikalischen Nachverarbeitung 
sowie Dialog-, Ablauf- und Schnittstellensteuerung zur 
Anwendung kommen. Das Verfahren in seiner Grund- 
version ist im "on-line"-Betrieb durch eine fixierte Syn- 35 
tax- und Kommandostruktur, sowie durch eine Kombi- 
nation von fixiertem Vokabular (sprecberunabhangiger 
Erkenner) und frei definierbarem Vokabular, wie z. B. 
Namen (sprecherabhangiger Erkenner), gekennzeich- 
net In vorteilhaften Aus- und Weiterbildungen kann es 40 
durch eine Reihe von Merkmalen charakterisiert wer- 
den, wonach vorgesehen ist, daB: 

— Syntax- und Kommandostruktur wahrend des 
Echtzeit-Dialogbetriebsfixiertsind, 45 

— Vorverarbeitung, Erkennung und Dialogsteue- 
rung fur Betrieb in gerauschbehafteter Umgebung 
ausgelegt sind, 

— f Or die Erkennung allgemeiner Kommandos, Na- 
men oder Daten kein Training durch den Benutzer 50 
erforderlich ist ("Sprecherunabhangigkeit"), 

— fiir die Erkennung spezifischer Namen, Daten 
oder Kommandos einzelner Benutzer ein Training 
notwendig ist ("Sprecherabhangigkeit* bei benut- 
zerspezifischen Namen), 55 

— die Eingabe von Kommandos, Namen oder Da- 
ten vorzugsweise verbunden erfolgt, wobei die An- 
zahl der Worte, aus denen ein Kommando fiir die 
Spracheingabe gebildet wird, variabel ist, <L h. daB 
nicht nur Ein- oder Zweiwortkommandos, sondern 60 
auch Drei-, Vier- oder Mehrwortkommados defi- 
niert werden kdnnen, 

— eine echtzeitige Verarbeitung und Abwiekluhg 
des Sprachdialoges gegeben ist, 

— die Sprachein- und -ausgabe nicht nur fiber 65 
Handapparat, Kopfhdrer, Headset o. a, sondern 
vorzugsweise im Freisprechbetrieb erfolgt, 

— die bei Freisprechen im Mikrofon registrierten 
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Lautsprecherechos elektrisch kompensiert werden, 
urn gleichzeitigen Betrieb von Spracheingabe und 
Lautsprecher (z. B. fQr Sprachausgabe, Ready-Si- 
gnale eta) zu erm6glichen fTifchokompensation"), 

— eine laufende automatische Anpassung an die 
analoge Obertragungscharakteristik (Raumaku- 
stik, Mikrofon- und Verstarkercharakteristik, Spre- 
chercharakteristik) im Betrieb erfolgt, 

— im "off-line Dialog Editor" die Syntaxstruktur, 
die Dialogstruktur, das Vokabular und Aussprache- 
varianten fQr den Erkenner neu konfiguriert und 
festgelegt werden kdnnen, ohne daB dies zusatzli- 
cher oder neuer Sprachaufhahmen fiir den unab- 
hangigen Erkenner bedarf, 

— im "off-line Dialog Editor" der Sprachumfang f flr 
die Sprachausgabe festgelegt wird, wobei 

a) die registrierten Sprachsignale einer digitalen 
Sprachdatenkompression unterworfen werden 
("Sprachcodierung"), anschiieflend abgespeichert 
werden und im echtzeitigen Sprachausgabebetrieb 
nach Auslesen aus dem Speicher eine entsprechen- 
de Sprachdecodierung erfolgt, oder b) der Sprach- 
umfang in Form von Text abgespeichert wurde und 
im echtzeitigen Sprachausgabebetrieb einer Text 
to Speech"-Syn these unterworfen wird, 

— die Wortstellung durch Vertauschen einzelner 
Worte eines Kommandos veranderbar ist, 

— vorgegebene synonyme Worte nutzbar sind, 

— die gleiche Funktion durch Kommandos unter- 
schiedlicher Wortanzahl (z.B. durch Zweiwort- 
bder Dreiwortkommandos) realisiert werden kann, 

— zur Erkennung und anschlieBender Aussonde- 
rung von Einf Qgungen wie "Ah", Tim", "Bitte" oder 
anderer nicht zum Vokabular gehdriger Komman- 
dos dem Nutzvokabular weitere Wdrter bzw.Laut- 
einheiten hinzugefQgt werden ("Nichtworter, Gar- 
bagewSrter") bzw. Wordspottingansatze genutzt 
werden, 

— die Dialogstruktur durch folgende Eigenschaf- 
ten sich auszeichnet: 

— flache Hierarchic d. h. einige wenige Hier- 
archieebenen, vorzugsweise eine oder zwei 
Auswahlebenen, 

— Einbindung von "EUipsen" d. h. Verzicht auf 
Wiederholung ganzer Kommandosatze mit 
mehreren Kommando worten; stattdessen Be- 
schrankung auf kurze Kommandos, z. B. "wel- 
ter", "hoher", "starker" , wobei dem System aus 
dem jeweils vorigen Kommando bekannt ist, 
worauf sich diese Aussage bezieht, 

— Einbeziehung von "Hilfe-" oder "Info-Me- 
nus", 

— Einbeziehung von Ruckfragen von seiten 
des SDS bei unsicheren Entscheidungen des 
Erkenners ("Wie bitte", "bitte wiederholen", 
"undweiter"), 

— Einbeziehung von Sprachausgaben, um 
durch Anregung bestimmter Sprechweisen die 
Erkennsicherheit zu steigern (z.B. durch die 
Aufforderung:"bitte lauter^, 

— die Spracherkennu ng d urch Betatigung einer 
"Push-totalk w -Taste ^YTT) aktiviert und dies aku- 
stisch quittiert wird (z. B. durch einen "Pieps* '-Ton), 
um anzuzeigen, daB die Eingabe nunmehr erfolgen 
kann, 

— auf die Betatigung der PTT verzichtet werden 
kann, wenn nach RQckfragen von Seiten der 
Sprachausgabe im AnschluB daran Spracheingaben 



17 



DE 195 33 541 CI 



erforderlich sind, wobei die PTT 

— entweder Mehrfachfunktionen wahrnimrat 
oder beinhaltet, z. B. wShrend des Telefonie- 
rens ("Auflegen des H5rers", "Abheben des 
Hdrers") bzw. beim Neustart des Sprachdia- 5 
logsystems bzw. beim Abbruch eines Telefon- 
wahlvbrgangs, 

— oder ergfinzt wird durch zusatziiche Schal- 
ter, welche z. B. einen Neustart oder den Ab- 
bruch einerFunktion/Aktionerlauben, 10 

■ ■ — das Dialogsystem eines oder mehrere der fol- 
genden Leistungsmerkmale aufweist: 

— die spezifischen (z. B. trainierten) Komman- 
dos, Daten, Namen oder Parameter unter- 
schiedJicher Benutzer werden bei Bedarf fur 15 
sp&tere Wiederbenutzung f estgehalten, 

— vom Sprecher trainierte Kommandos bzw. 
Namen werden wlhrend der Trainingsphase 
nicht nur der Erkennung zugefQhrt, sondern 
auch in ihrem zeitlichen Verlauf aufgenom- 20 
men, einer Datenkompression ("Sprachkodie- 
rung") zugef ilhrt und nichtflttchtig gespeichert, 

— die.vom Sprecher trainierten Kommandos 
bzw. Namen werden wahrend der Trainings- 
phase derart verarbeitet, dafl Umgebungsge- 25 
rausche w&hrend der Aufnahme weitgehend 
kompensiert werden, 

— ' der AbschluB eines Erkennvorganges optisch 
bzw. akustisch quitdert wird ("Pieps"-Ton o.a.) 
oder alternativ hierzu bei sicherheits- bzw. zeit- 30 
oder kostenrelevanien Entscheidungen das Erken- 
nungsergebnis akustisch wiederholt wird (Sprach- 
ausgabe) und der Benutzer die Mdglichkeit hat, 
durch ein verbales Kommando oder durch Betati- 
gen eines Schalters (z. B. PTT) die Ausfuhrung der 35 
Aktion zu unterbinden, 

— das Sprachdialogsystem mit einem optischen 
Anzeigemedium (LCD Display, Monitor o. §.) ge- 
koppelt ist, wobei das opdsche Anzeigenmedium 
einzelne oder mehrere der folgenden Funktionen 40 
Qbernehmen kann: 

Ausgabe der erkannten Befehle zu Kon- 
troilzwecken, 

— Darstellung der vom Zieigerat als Reakdon 
auf das Sprachkommando eingestellten Funk- 45 
tionen, 

— Darstellung verschiedener Funktionen/Al- 
ternativen, die per Sprachkommando anschlie- 
Bend eingesteUt bzw. ausgewEhlt oder modifi- 
ziert werden, 50 

— jeder Benutzer eigene Namens- oder Abkur- 
zungslisten einrichten kann (vergleichbar einem 
Telefon- oder AdreBbuch), wobei 

— dem vom Benutzer beim sprecherabhangi- 
gen Erkenner trainierte Namen eine Ziffern- 55 
kette, Buchstabenkette oder ein Kommando 
bzw. eine Kommandosequenz zugeordnet ist, 
die im sprecherunabhangigen Betriebsmode 
eingegeben wurde, 

— ansteile der erneuten Eingabe der Ziffern- 60 
kette, Buchstabenkette oder Kommandose- 
quenz der Benutzer die Listenbezeichnung 
und den von ihm gewahlten Namen eingibt, 
oder neben dem Namen ein geeignetes Kom- 

; mando eingegeben wird, welches auf die richti- 65 
ge Liste schlieBen ISBt, 

— die Liste sprachgesteuert jederzeit urn wei- 
tere Eintrage erweitert werden kann, 
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— die liste sprachgesteuert komplett oder se- 
lektiv geldscht werden kann, 

— die Liste auf einen Sprachbefehl hin abge- 
h6rt werden kann, wobei die vom Benutzer 
eingegebenen Namen und bei Bedarf die zuge- 
hdrigen Zifferakette, Buchstabenkette bzw. 
Kommandos akustisch ausgegeben werden, 

— die akustische Ausgabe der Liste zu jedem 
beliebigen Zeitpunkt abgebrochen werden 
kann, wobei bei der auf das Kommando Teh- 
lern, o. a. bzw. auf das Kommando "wiederho- 
len" folgenden Ausgabe der bisher eingespro- 
chenen Ziffern dieselbe Blockung benutzt wird 
wie bei der Eingabe, 

— eine Folge von Ziffern (Ziffernkolonne) entwe- 
der an einem Stilck (zusammenhangend) oder. 
blockweise eingesprochen werden kann, wobei 

— nach jeder Eingabepause eine Quittierung 
erfolgt, indem der letzte Eingabeblock von der 
Sprachausgabe wiederholt wird, 

— nach der Quittierung durch ein Kommando 
Tehler", "f alsch" p. a. der letzte Eingabeblock 
geloscht werden und die verbleibenden, ge- 
speicherten Blocke akustisch ausgegeben wer- 
den, 

— nach der Quittierung durch ein Kommando 
"Ldschen" oder eine ahnliche Kommandoein- 
gabe alle eingegebenen Ziff ernbldcke geldscht 
werden kdnnen, 

— nach der Quittierung durch ein Kommando 
Viederholen" o.a. die bisher gespeicherten 
Blocke akustisch ausgegeben werden kdnnen, 

— nach der Quittierung durch ein Kommando 
"Abbruch" oder eine ahnliche Kommandoein- 
gabe die Eingabe der Ziffernkolonne vollstan- 
dig abgebrochen werden kann, 

, — nach der Quittierung weitere Ziffern bzw. 
Ziffernbldcke eingegeben werden kdnnen, 

— nach der Quittienmg die . Zifferneingabe 
durch ein geeignetes Kommando abgeschlos- 
senwird, 

— eine Folge von Buchstaben (Buchstabenkolon- 
ne) eingesprochen wird, welche zur Auswahl kom- 
plexer Funktionen bzw. zur Eingabe einer Vielzahl 
von Informationen vorgesehen wird, wobei die 
Buchstabenkolonne zusammenhangend oder 
blockweise eingegeben wird und 

— nach jeder Eingabepause eine Quittierung 
erfolgt, indem der letzte Eingabeblock von der 
Sprachausgabe wiederholt wird, 

— nach der Quittierung durch ein Kommando 
"Fehler", ."false*" o. a. der letzte Eingabeblock 
geloscht wird und die verbleibenden, gespei- 
cherten Blocke akustisch ausgegeben werden, 

— nach der Quittierung durch ein Kommando 
"Ldschen* o. a. alle eingegebenen Buchstaben 
geldscht werden kdnnen, und im AnschiuB dar- 
an eine erneute Eingabe erfolgt, 

— nach der Quittierung durch ein Kommando 
Viederholen" o.a. die bisher gespeicherten 
Blocke akustisch ausgegeben werden kdnnen, 

— nach der Quittierung weitere Buchstaben 
bzw. Buchstabenbldcke eingegeben werden 
kdnnen, 

— gegebenenfalls ein Abgleich der Buchsta- 
benkolonne mit einer gespeicherten Wortiiste 
erfolgt und daraus das (die) bestpassende(n) 
Wort (Wdrter) extrahiert wird (werden); alter- 
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nativ hierzu kann dieser Abgleich bereits nach 
Eingabe der einzelnen fiuchstabenblocks er- 
folgen, 

— nach der Quittierung durch ein Kornmando 
"Abbruch* oder eine Ihnliche Kommandoein- 5 
gabe die Eingabe der Buchstabenkolonne voil- 
standig abgebrochen werden kann, 

— nach der Quittierung die Buchstabeneinga- 
be durch ein geeignetes Kornmando abge- 
schlossenwird, 10 

— die AusgabelautstSrke der Sprachausgabe und 
des "Pieps^-Tons den Uingebungsgerauschen ange- 
paBt sind, wobei die Umgebungsgerausche wah- 
rend der Sprachpausen bezflgiich ihrer Starke und 
CharakteristikerfaBt werden, I5 

— der Zugang zum Sprachdialogsystem bzw. der 
Zugriff auf behutzerspezifische Daten/Komman- 
dos nur durch Eingabe spezieller Kommandoworte 
bzw. durch Eingabe spezieller Kommandoworte ei- 
nes autorisierten Sprechers erfolgt, dessen Sprach- 20 
charakteristika dem Dialogsystem bekannt sind 
und von diesem geprflft werden, 

— linger andauernde Sprachausgaben (z. B. Info- 
Menus) durch gesprochene oder manueile Ab- 
bruchkommandos oder durch die FIT- oder die 25 
Abbruchtaste yorzeitig beendet werden konnen, 

— das Sprachdialogsystem in einer der folgenden 
Formen die manueile Bedienung obiger Funktio- 
nen (z. B. per Schalter, Taste, Drehknopf) erganzt 
oderersetzt: " 30 

— dieSprachkommandierungersetztkeinerlei 
manueile Bedienung, sondera existiert neben 
der manuellen Bedienung, d h. die Bedienung 
kannjederzeit manuell erfolgen bzw. weiter- 
gefOhrt werden, 35 

— einige spezieile Leistungsmerkmale sind 
nur per Spracheingabe aktivierbar, d\e we- 
sentlichen Gerate- und Bedienfunktion»;n blei- 
ben sowohl manuell wie per Sprache koTiman- 
dierbar, ^ 

— die Anzahl der manuellen Bedienelemente 
wird deutlich reduziert, einzelne Tasten bzw. 
Drehknopfe ubernehmen Mehrfachfunktion. 
Per Sprache wird manuellen Bedienelementen 
eine spezieile Funktion zugewiesen. Nur we- 45 
sentliche Bedienfunktionen sind noch manuell 
ansteuerbar. Die Basis ist die Sprachkomman- 
dierung, 

— : mit einem einzigen Mehrwortkommando eine 
Vielzahl unterschiedliche Gerate sowie Gerate- so 
funktionen ansprech- und modifizierbar sind und 
somit eine umstandliche mehrstufige Vorgehens- 
weise (z. B. Auswahl des Gerates im 1. Schritt, da- 
nach Auswahl der Funktion im Z Schritt, danach 
Auswahl der Art der Anderung im 3. Schritt) nicht 55 
erforderlichist, 

— das Sprachdialogsystem im Kfz fur einzelne 
oder mehrere der im folgenden genanriten Funktio- 
nen zur Anweridung komhit: 

— Bedienung einzelner oder mehrerer Gerate, 60 
wie z. B. Autotelefon, Autoradio (ggf. mit Kas- 
sette\ CD-Wechsler, Soundsystem), Naviga- 
tionssystem, Klimaanlage, Heizung, Reiserech- 
ner, Beleuchtung, Schiebedach, Fensterheber, 
Sitzversteller, Sitzheizung, Heckscheibenhei- 65 
zung, Spiegelverstellung und -memory, Sitz- 
verstellung und -memory, Lenkradverstellung 
und -memory eta, 



20 



— Informationsabfrage yon Parameters wie 
Oldruck, -temperatur, Wassertemperatur, Ver- 
brauch, Reifendrtick eta, 

— Information liber notwendige MaBnahmen 
in besonderen Situationeri, z.B. bei hoher 
Wassertemperatur, geringem Reifendruck eta, 

— Warnung des Fahrers bei Defekten, 
wobei 

— die sprachgesteuerte Auswahl eines neuen Sen- 
ders im Autoradio nach einem dfer folgenden Ab- 
laufe erfolgt 

— Kommandierung des Suchlaufs auf- bzw. 
abwarts, 

— Spracheingabe der Senderfrequenz vor- 
zugsweise in der umgangssprachlichen Form 
(z.B. "Einhunde^tdreikommasieben ,, bzw. 
"Hundertdreikommasieben" "Hundertunddrei- 
kommasieben" bzw. einschlieBlich der Fre- 
quenzangabe (z. B. "Hundertdreikommasieben 
MegaHertz"), 

— Spracheingabe des gebrauchlichen Sender- 
namens (z. B. "SDRl"), 

— bei der Klimaanlage die gewiinschte Tempera- 
tur (ggi nach dem Ort der FahrgastzeUe des Kfz 
gestaffelt nach links, rechts, vorne, hinten) per 
Spracheingabe nicht nur relativ, sondern vorzugs- 
weise absolut (d h. in Grad, Fahrenheit o. a.) f estge- 
legt werden kann und zusatzlich minimale bzw. ma- 
ximale bzw. mittlere Temperatur oder die Normal- 
temperatur kommandiert werden konnen; ahnlich 
kdnnen die Betriebsbedingungen filr das Geblase 
im Fahrgastraum festgelegt werden. 

— dem Navigationssystem ein Zielort (Ortsname, 
Straflenname) durch Eingabe von Buchstabenko- 
lonnen im "Buchstabiermode" mitgeteilt wird, wo- 
bei auch der Anfang des Namens als Eingabe ge- 
nugt und das Navigationssystem gegebenenfalls 
mehrere Kandidaten zur Auswahl anbietet, 

— eine oder mehrere der folgenden benutzerspezi- 
fischen Namenslisten eingerichtet werden: 

— Liste zur Speicherung von Telefonniim- 
mern unter vorgebbaren Namen/Abkurzun- 
gen, 

— Liste zur Speicherung von Zielen hlr das 
Navigationssystem unter vorgebbaren Na- 
men/Abkurzungen, 

— Liste zur Speicherung von Funktionsnamen 
ftir Kommandos oder Kommandofolgen, 

— Liste zur Speicherung von Senderfrequen- 
zen des Autoradios unter vorgebbaren Sen- 
dernamen bzw. AbkGrzungen, 

— die Ausgabelautstarke der Sprachausgabe und 
des "Pieps^-Tons, ggf. auch die Radiolautstarke und 
die Geblaseeinstellung, unter Beriicksichtigung ei- 
nes oder mehrerer der folgenden Parameter festge- 
legt werden: 

— Fahrzeuggeschwindigkeit, 

— Drehzahl, 

— Offnungsbreite der Fenster und des Schie- 
bedaches, 

— Fahrzeugtyp, 

— Wichtigkeit der Sprachausgabe in der je- 
weiligen Dialogsituation. 



Iri bezug auf die Vorrichtung ziu- Realisierung eines 
Sprachdialogsystems ist a a. vorgesehen, daB die Ab- 
lauf-, Dialog-, Schnittstellensteuerung, die Sprachein- 
/-ausgabe sowie die Sprachsignalvorverarbeitung, Er- 
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kennung syntaktisch-grammatikalische und semanti- 
sche Nachverarbeitung mittels Mikro- und Signalpro- 
zessoren, Speichern und Schnittstellenbausteinen er- 
folgt, vorzugsweise aber mit einem einzigen digitalen 
Signal- oder Mikroprozessor sowie dem erforderlichen 5 
externen Daten- und Programmspeicher, den Interfaces 
sowie den zugehorigen Treiberbausteinen, dem Taktge- 
neratbr, der Steuerlogik und den fur SprachehW-ausga- 
be erforderlichen Mikrofonen und Lautsprechern samt 
zugehdrigen Wandlern und Verstarkern sowie gegebe- 10 
nenfalls einer Push-to-talk(PTI>Taste und/oder Ab- 
bruchtaste. 

Ferner ist vorgesehen, daB Qber ein Interface 

— Daten uiid/oder Parameter ladbar bzw. nachlad- is 
bar sind, um z. B. Verfahrensanderungen oder ein 
Sprachdialogsystem fQr eine andere Sprache zu 
realisieren, 

— die auf einem separaten Rechner festgelegte 
oder modifizierte Syntaxstniktur, Dialogstruktur, 20 
Ablaufsteuerung, Sprachausgabe eta auf das 
Sprachdialogsystem ubertragen werden (*off-linie 
Dialog Editor") 

— das Sprachdialogsystem mit mehreren der anzu- 
steuernden Gerate Qber ein Bussystem und/oder 25 
ein ringformiges Netzwerk verknQpft ist (anstelle 
von Punkt zu Punkt-Verbindungen zu den einzel- 
nen Geraten) und daB Qber diesen Bus bzw. das 
Netzwerk Steuerdaten bzw. Audiosignale bzw. Sta- 
tusmeldungen des Kfz bzw. der zu bedienenden 30 
Gerate ubertragen werden, 

— die einzelnen anzusteuernden Gerate nicht je-, 
weils ein eigenes Sprachdialogsystem en thai ten,' 
sondern von einem einzigen Sprachdialogsystem 
bedient werden, 35 

— eine oder mehrere Schnittsteilen zu Fahrzeug- 
komponenten oder Fahrzeugrechnern bestehen, 
woruber permanente oder aktuelle Fahrzeugdaten 
dem Sprachdialogsystem mitgeteilt werden, wie 

z, B. Geschwindigkeit, ^ 

— das Sprachdialogsystem wahrend der Wartezeit 
(wo keine Sprachein- oder -ausgabe erfolgt) andere 
Funktionen z. B. des Radios, des Telefons o.a. Qber- 
nimmt, 

— durch erweiterten Speicher ein multilinguales 45 
sprecherunabhangiges Dialogsystem aufgebaut 
wird, wobei kurzfristig zwischen den Dialogsyste- 
men verschiedener Sprachen umgeschaltet werden 
kann, 

— ein optisches Display mit dem Sprachdialogs- 50 
ystem Qber ein spezielles Interface bzw. Qber den 
Busanschlufi gekoppelt ist, wobei dieser Bus vor- 
zugsweise ein optischer Datenbus ist und hierQber 
sowohl Steuer- wie Audiosignale ubertragen wer- 
den, 55 

— das vollstandige Sprachdialogsystem Qber eine 
PCMCIA-Schnittstelle mit der per Sprache zu steu- 
ernden Vorrichtung bzw. einem Host- oder Appli- 
kationsrechner gekoppelt wird. 

60 

Es versteht sich, daB die Erfmdung nicht auf die dar- 
gestellten Ausfuhrungs- und Anwendungsbeispiele be- 
schrankt ist, sondern vielmehr sinngemaB auf weitere 
ubertragbar ist So ist es z. B. denkbar, ein solches 
Sprachdialogsystem zur Bedienung eines elektrischen 65 
Wdrterbuches oder eines eiektronischen Diktier- bzw. 
Obersetzungssystems zu verwenden. 

Eine weitere Ausgestaltung der Erfindung besteht 
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• fQr relativ begrenzte Anwendungen mit kleiner Syn- 
tax die syntaktische Oberprufung in Form eines syntak- 
tischen Bigram-Sprachmodells in den Erkennungspro- 
zeB einbezogen wird und somit die syntaktische Nach- 
verarbeitung entf alien kann, 

• bei komplexen Aufgabenstellungen die Schnittstelle 
zwischen Erkenner und Nachverarbeitung nicht mehr 
einzelne Satze, sondern ein sog. "Worthypothesennetz* 
ist, aus dem in einer Nachverarbeitungsstufe aufgrund 
syntaktischer Vorgaben mit speziellen Paarungs-Strate- 
gien der bestpassende Satz extrahiert wird 

Bezugszeichenliste 

SBS Sprachbediensystem 

PTTPush-to-Talk 

HMM Hidden Markov Modelie 

DTW Dynamic Time Warping 

CMF Mittelwert befreite Cepstralvektoren 

DCT Digitale Cosinus Transformation 

FFT Fast Fourier Transformation 

LDA Lineare Diskriminanzanalyse 

PCM Pulse Code Modulation 

VQ Vektorquantisierung 

SDS Sprachdialogsystem 

PatentansprQche 

1. Verfahren zur automatischen Steuerung eines 
oder mehrerer Gerate durch Sprachkommandos 
oder per Sprachdialog im Echtzeitbetrieb, bei wel- 
chem Verfahren die eingegebenen Sprachkom- 
mandos mittels eines sprecherunabh&ngigen Ver- 
bundwort-Spracherkenners und eines sprecherab- 
hangigen Zusatz-Spracherkenners erkannt und ge- 
maB ihrer Erkennungswahrscheinlichkeit klasshi- 
ziert werden und dasjenige zu lassige Sprachkom- 
mando mit der groBten Erkennungswahrscheinlich- 
keit als das eingegebene Sprachkommando identhv 
ziert und die diesem Sprachkommando zugeordne- 
ten Funktionen des oder der Gerate initiiert wer- 
den, gekennzeichnet durch folgende Merkmale: 

• die Sprachkommandos (der Sprachdialog) wer- 
den (wird) auf der Basis von mindestens einer Syn- 
taxstniktur, mindestens einem Basiskommandovo- 
kabular und bei Bedarf mindestens einem sprechfer- 
spezifischen Zusatzkommandovokabular gebildet 
(gefQhrt); 

• die Syntaxstmktur(en) und das (die) Basiskom- 
mandovokabular(ien) werden in sprecherunabhan- 
giger Form vorgegeben und sind wahrend des 
Echtzeitbetriebs fixiert; 

• das (die) sprecherspezifische (n) Zusatzkomman- 
dovokabular (ien) wird (werden) vom (jeweiligen) 
Sprecher eingegeben und/oder geandert, indem in 
Trainingsphasen in- und/oder auBerhalb des Echt- 
zeitbetriebs ein nach einem sprecherabhangigen 
Erkennungsverfahren arbeitender Zusatz-Sprach- 
erkenner vom (jeweiligen) Sprecher durch ein- 
oder mehrmalige Eingabe der Zusatzkommandos 
auf die sprachspezifischen Merkmale des fteweili- 
gen) Sprechers trainiert wird; * 

• im Echtzeitbetrieb erfolgt die Abwicklung des 
Sprachdialogs und/oder die Steuerung des Gerats 
(der Gerate) wie folgt: 

— vom (jeweiligeh) Sprecher eingegebene 
Sprachkommandos werden einem sprecherun- 
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abhangigen und auf der Basis von Phonemen 
arbeitenden Verbundwortspracherkenner und 
dem sprecherabhangigen Zusatz-Spracher- 
kenner zugeleitet und dort (jeweils) einer 
Merkmalsextraktion unterzogen und 5 

— im Verbundwortspracherkenner anhand 
der dort extrahierten Merkmale auf das Vor- 
liegen von Basiskommandos aus dem (jeweili- 
gen) Basiskommandovokabular gemaB der (je- 
weik) vorgegebenen Syntaxstruktur unter-- i 0 
sucht und klassifiziert und 

— im sprecherabhangigen Zusatz-Spracher- 
kenner anhand der dort extrahierten Merkma- 
le auf das Vprliegen von Zusatzkommandos 
aus dem (jeweiligen) Zusatzkommandovoka- 15 
bular untersucht und klassifiziert; 

— anschlieBend werden die als mit einer be- 
stimmten Wahrscheinlichkeit erkannt klassifi- 
zierten Kommandos und Syntaxstrukturen der 
beiden Spraeherkenner zu hypothetischen 20 
Sprachkommandos zusammengefQgt und die- 

se gemifi der vorgegebenen Syntaxstruktur 
auf ihre Zulassigkeit und Erkennungswahr- 
scheinlichkeit untersucht und klassifiziert; 

— anschlieBend werden die zulassigen hypo- 25 
thetischen Sprachkommandos nach vorgege- 
benen Kriterien auf ihre Plausibilitat unter- 
sucht und von den als plausibel erkannten hy- 
pothetischen Sprachkommandos dasjenige mit 
der hdchsten Erkennungswahrscheinlichkeit 30 
ausgewahlt und als das vom (jeweiligen) Spre- 
cher eingegebene Sprachkommando identifi- 
ziert; 

— anschlieBend wird (werden) die dem identi- 
fizierten Sprachkommando zugeordnete(n) 35 

— Funktion(en) des (jeweils) zu steuern- 
den Gerits initiiert und/oder 

— Antwort(en) gemiB einer vorgegebe- 
nen Sprachdialogstruktur zur Fortfiih- 
rung des Sprachdialogs generiert 40 

2. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, daB die Eingabe von Sprachkommandos 
manuell und/oder akustisch erfolgt 

3. Verfahren nach Anspruch 2, dadurch gekenn- 
zeichnet, daB die Eingabe von Sprachkommandos 45 
im Freisprechbetrieb erfolgt 

4. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB akustisch 
eingegebene Sprachkommandos gerauschredu- 
ziert den beiden Spracherkennern zugeleitet wer- 50 
den, indem durch stationare und/oder quasistatio- 
nare Umgebungsgerausche verursachte Gerausch- 
signaie im Sprachsignal-Empfangskanal vor den 
beiden Spracherkennern kompensiert werden. 

5. Verfahren nach einem der vorhergehenden An- 55 
spruche, dadurch gekennzeichnet, dafi akustisch 
eingegebene Sprachkommandos echokompensiert 
den beiden Spracherkennern zugeleitet werden, in- 
dem in den Sprachsignal-Empfangskanal rtickge- 
koppelte Signale einer Sprachausgabeeinheit im 60 
Sprachsignal-Empfangskanal vor den beiden 
Spracherkennern kompensiert werden. 

6. Verfahren nach einem der Ansprfiche 4 oder 5, 
dadurch gekennzeichnet, daB die {Compensation 
mittels adaptiver digitaler Filterverfahren erfolgt 65 

7. Verfahren nach einem der vorhergehenden An- 
spruche, dadurch gekennzeichnet, daB die eingege- 
benen Sprachkommandos nach Digitalisierung 
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blockweise zusammengefaBt und nach einer Ge- 
wichtung mittels einer Spektraltransformation in 
den Frequenzbereich umgesetzt werden und an- 
schlieBend durch Betragsbildung und nachfolgen- 
der gehdrbezogener MEL-Rlterung zu Kanalvek- 
toren zusammengefaBt werden und daB daran an- 
schlieBend eine Segmentierung durchgefOhrt wird. 

8. Verfahren nach Anspruch 7, dadurch gekenn- 
zeichnet, daB als Spektraltransformation eine Fast- 
Fourier-Transformation (FFT) eingesetzt wird 

9. Verfahren nach einem der AnsprOche 7 oder 8, 
dadurch gekennzeichnet, daB die Segmentierung in 
eine Grob- und eine Feinsegmentierung unterteilt 
ist 

10. Verfahren nach einem der Ansprflche 7 bis 9, 
dadurch gekennzeichnet, daB im sprecherunabhan- 
gigen Verbundwortspracherkenner die Merkmal- 
sextraktion dergestalt durchgefuhrt wird, 

• daB die Kanalvektoren mit einer diskreteri Cosi- 
nustransformation (DCI) in Cepstralvektoren 
transformiert werden, 

• daB zusatzlich die Energie des zugeh6rigen Si- 
gnals berechnet und normiert wird, 

• dafi zur Adaption des Erkenners auf den jeweili- 
gen Sprecher und/oder die jeweiligen tibertra- 
gungscharakteristiken des Sprachsignal-Empfangs- 
kanals fortlaufend der Mittelwert der Cepstralvek- 
toren berechnet und von den Cepstralvektoren ab- 
gezogenwird, 

• daB die vom Mittelwert der Cepstralvektoren 
befreite Cepstralvektoren und die berechnete nor- 
mierte Signalenergie zu mittelwertfreien Cepstral- 
koeffizienten (CMF-Vektoren) zusammengefaBt 
werden. 

1 1. Verfahren nach einem der vorhergehepden An- 
spruche, dadurch gekennzeichnet, daB der spre- 
cherunabhangige Verbundworterkenner bei der 
Klassifizierung mit einem phonembasierten Hid- 
den-Markov-Modell (HMM) arbeitet 

12. Verfahren nach Anspruch 1 1, dadurch gekenn- 
zeichnet, daB die Klassifikation mit Hilfe eines Vi- 
terbialgorithmus durchgefOhrt wird 

13. Verfahren nach Anspruch 12, dadurch gekenn- 
zeichnet, daB der Viterbialgorithmus durch eine 
vorgegebene Wortfolgestatistik erganzt wird. 

14. Verfahren nach einem der vorhergehenden An- 
sprOche, dadurch gekennzeichnet, dafl bei der Klas- 
sifikation zusatzlich auch Fullwdrter oder -laute 
oder sonstige im vorgegebenen Basisvokabular 
nicht enthaltene Fehlkommandos als solche er- 
kannt und entsprechend klassifiziert und ausgeson- 
dert werden. 

15. Verfahren nach einem der vorhergehenden An- 
spruehe, dadurch gekennzeichnet, daB der spre- 
cherunabhangige Verbundwort-Spracherkenner 
und der Zusatz-Spracherkenner auf derselben Si- 
gnalvorverarbeitung fur die eingegebehen Sprach- 
kommandos aufsetzen. 

16. Verfahren nach Anspruch 15, dadurch gekenn- 
zeichnet, daB die Signalvorverarbeitung Verfahren 
zur Gerauschreduktion, Echokompensation und 
Segmentierung umfaBt 

17. Verfahren nach einem der vorhergehenden An- 
sprQche, dadurch gekennzeichnet, dafi der Zusatz- 
spracherkenner als Einzelwortspracherkenner ar- 
beitet 

18. Verfahren nach Anspruch 17, dadurch gekenn- 
zeichnet, daB der Zusatzspracherkenner als Einzel- 
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wortspracherkenner nach dem Verfahren der dy- 
namischen Zeitnormierung arbeitet 

19. Verfahren nach Anspruch 17, dadurch gekemv 
zeichnet, daB der sprecherunabhangige Verbund- 
wort-Spracherkenner und der sprecherabhangige 5 
Einzeiwort-Spracherkenner kombiniert im Ver- 
bundwortmodus arbeiteri. 

20. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB wahrend des 
Echtzeitbetriebs eihe fortlaufende Anpassung des 10 
Sprachsignal-Empfangskanals an die analoge 
Ubertragungscharakteristik, insbesondere Rauma- 
kustik- und/oder Mikrofon- und/oder Verstarker- 
und/oder Sprechercharakteristik, erfolgt 

21. Verfahren nach einem der Anspruche 1 bis 20, 15 
dadurch gekennzeichnet, daB die vorgegebenen 
Basiskommandos in sprachcqdierter Form vorge- 
geben und abgespeichert werden und/oder die vom 
(jeweiligen) Sprecher in Trainingsphasen eingege- 
benen Zusatzkommandos und/oder im Echtzeitbe- 20 
trieb eingegebenen Sprachkommandos nach ihrer 
Eingabe sprachcodiert weiterverarbeitet und/oder 
abgespeichert werden und daB akustisch auszuge- 
bende Sprachkommandos vor ihrer Ausgabe 
sprachdecodiert werden. 25 

22. Verfahren nach einem der Anspriiche 1 bis 20, 
dadurch gekennzeichnet, daB die vorgegebenen 
Basiskommandos und/oder die Zusatzkommandos 
und/oder die im Echtzeitbetrieb eingegebenen 
Sprachkommandos in Form von Text abgespei- 30 
chert werden und daB akustisch auszugebende 
Sprachkommandos vor ihrer Ausgabe einer Text- 
zu-Sprache-Synthese unterzogen werden. 

.23. Verfahren nach einem der vorhergehenden An- 
sprQche, dadurch gekennzeichnet, daB die Syntax- 35 
struktur und die Basiskommandos und/oder die Zu- 
satzkommandos vorab im "offline Dialog Editier- 
modus" im Labor erstellt und fbdert werden und 
dem Verbundwort-Spracherkenner in Form von 
Datenfiles Obergeben werden! 40 

24. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB 

• die Wortstellung in den Sprachkommandos 
durch Vertauschen einzelner Worte eines Kom- 
mandos verariderbar ist und/oder 45 

• vorgegebene synonyme Worte bei der Bildung 
von Sprachkommandos nutzbar sind und/oder 

• die gleiche Funktion durch Sprachkommandos 
unterschiedlicher Wortanzahl realisiert werden 
kann. 50 

25. Verfahren nach einem der vorhergehenden An- 
sprQche, dadurch gekennzeichnet, daB zur Erken- 
nung und anschlieSender Aussonderung von Einf Q- 
gungen oder anderer nicht zum Vokabular geh6ri- 
ger Kommandos dem zulassigen Vokabular weite- 55 
re Worter bzw. Lauteinheiten hinzugefugt werden 
bzw. Wordspottingansatze genutzt werden. 

26. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB die Dialog- 
struktur folgende Eigenschaf ten aufweist: 60 

• flache Hierarchie mit nur einigen wenigen Hier- 
archieebenen, vorzugsweise einer Oder zweier 
Hierarchieebenen, 

• Einbindung von Ellipsen, bei der Abwicklung des 
Sprachdialogs, ' 65 

• Einbeziehung von Hilf e- oder Info-Menus, 

• Einbeziehung von Ruckfragen des Sprachdia- 
logsystems bei unsicheren Entscheidungen des Er- 



kenners, 

• Einbeziehung von Sprachausgaben, urn durch 
Anregung bestimmter Sprechweisen die Erkennsi- 
cherheit zu steigern. 

27. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB die Sprach- 
erkennung durch Betatigung einer Push-to-talk- 
Taste (PTT) aktiviert wird oder daB die Spracher- 
kennung durch Betatigung einer Pushto-talk-Taste 
(PTT) aktiviert und dies akustisch und/oder optisch 
quittiertwird 

28. Verfahren nach Anspruch 27, dadurch gekenn- 
zeichnet, daB der anschlieBende Sprachdialog bzw. 
die anschlieBende Eingabe von Sprachkommandos 
ohne Betatigung der Push-totalk-Taste abgewik- 
keltwird. 

29. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB das Sprach- 
dialogsystem eines oder mehrere der folgenden 
Leistungsmerkmale aufweist: 

• die spezifischen (z. B. trainierten) Sprachkom- 
mandos unterschiedlicher Sprecher werden bei Be- 
darf f Or spatere Wiederbenutzung f estgehalten, 

• vom Sprecher trainierte Sprachkommandos 
bzw. Namen werden wahrend der Trainingsphase 
nicht nur der Erkennung zugefuhrt, sondern auch in 
ihrem zeitlichen Verlauf aufgenommen, einer Da- 
tenkompression ("Sprachkodierung*') zugefuhrt 
und nichtflfichtig gespeichert, 

• die vom Sprecher trainierten Sprachkomman- 
dos werden wahrend der Trainingsphase derart 
verarbeitet, daB Umgebungsgerausche wahrend 
der Aufnahme weitestgehend kompensiert werden. 

30. Verfahren nach einem der vorhergehenden An- 
spruche, dadurch gekennzeichnet, daB der Ab- 
schluB eines Erkennvorganges akustisch durch ei- 
nen Kontrollton quittiert wird. 

31. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB bei sicher- 
heits- bzw. zeit- oder kostenrelevanten Entschei- 
dungen das Erkennungsergebnis akustisch wieder- 
holt wird (Sprachausgabe) imd der Sprecher die 
Mdglichkeit hat, durch ein verbales Kommando 
oder durch Betatigen der Push-to-talk-Taste die 
Ausffihrung der dem Sprachkommando zugeord- 
neten Funktion zu unterbinden oder rQckgangig zu 
machen. 

32. Verfahren nach einem der vorhergehenden An- 
sprQche dadurch gekennzeichnet, daB das Sprach- 
bediensystem mit einem optischen Anzeigemedium 
(LCD Display, Monitor, Display eines angesteuer- 
ten Gerats o. a.) gekoppelt ist 

33. Verfahren nach Anspruch 32, dadurch gekenn- 
zeichnet, daB das optische Anzeigenmedium einzel- 
ne oder mehrere der folgenden Funktionen uber- 
nimmt: 

• Ausgabe der erkannten Sprachkommandos zu 
Kontrollzwecken, 

• Darstellung der vom Zielgerat als Reaktion auf 
das Sprachkommando eingestellten Funktionen, 

• Darstellung verschiedener Funktionen/Alterna- 
tiven, die per Sprachkommando anschlieBend ein- 
gestellt bzw. ausgewahlt oder modifiziert werden. 

34. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB jeder Spre- 
cher eigene Namens- oder Abktirzungslisten ein- 
richten kann mit einem oder mehreren der folgen- 
den Merkmale: 
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• der vom Sprecher beim sprecherabhangigen Er- 
Jcenner trainierte Namen reprasentiert eine Zif- 
fernkette, Buchstabenkette und/oder ein Komman- 
do bzw. eine Kommandosequenz, die im sprecher- 
unabhangigen Betriebsmode eingegeben wurde, 5 

• anstelle der erneuten Eingabe der Zif fernkette, 
Buchstabenkette oder Kommandosequenz kann 
der Benutzer die Listenbezeichnung und den von 
ihm gewahlten Namen eingeben, oder neben dem 
Namen ein geeignetes Kommando eingeben, wel- 10 
ches auf die richtige Liste schlieBen laBt, 

• die Liste kann sprachgesteuert jederzeit urn wei- 
tere Eintrageerweitert werden, 

• die Liste kann sprachgesteuert komplett oder 
selektiv geldscht werden, 15 

• die Liste kann auf einen Sprachbefehl hin abge- 
hdrt werden, wobei die vom Benutzer eingegebe- 
nen Namen und bei Bedarf die zugehdrigen Zif- 
fernkette, Buchstabenkette bzw. Kommandos aku- 
stisch ausgegeben werden, 20 

• die akustische Ausgabe der Liste kann zu jedem 
beiiebigen Zeitpunkt abgebrochen werden. 

35. Verf ahren nach einem der vorhergehenden An- 
sprtiche, dadurch gekennzeichnet, daB eine Folge 
von Ziffern (Ziffemkolonne) entweder an einem 25 
Stiick (zusammenhangend) oder blockweise einge- 
sprochen werden kann, wobei 

• nach jeder Eingabepause eine Quittierung er- 
folgt, indem der letzte Eingabeblock von der 
Sprachausgabe wiederholt wird, 30 

• nach der Quittierung durch ein Sprachkomman- 
do Tehler" o. a. der letzte Eingabeblock geldscht 
wird und die verbleibenden, gespeicherten Bldcke 
akustisch ausgegeben werden, 

• nach der Quittierung durch ein Sprachkomman- 35 
do "Ldschen" o. a*, alle eingegebenen Ziffernblocke 
geldscht werden kdnnen, 

• nach der Quittierung durch ein Sprachkomman- 
do "wiederholen* o.a. die bisher gespeicherten 
Bldcke akustisch ausgegeben werden kdnnen, 40 

• nach der Quittierung durch ein Sprachkomman- 
do "Abbruch" o. a. die Eingabe der Ziffernkc>Ionne 
vollstandig abgebrochen werden kann, 

• nach der Quittierung weitere Ziffern bzw. Zif- 
fernbldcke eingegeben werden kdnnen, 45 

• nach der Quittierung die Zifferneingabe durch 
ein geeignetes Sprachkommando "Stop" o. a. abge- 
schlossen wird, 

• durch Eingabe eines eine Aktion/Funktion star- 
tenden Sprachkommandos wie Vahlen** o. a. die 50 
Eingabe abgeschlossen wird und die dem Sprach- 
kommando zugeordnete Aktioii/ Funktion initiiert 
wird. 

36. Verfahren nach Anspruch 35, dadurch gekenn- 
zeichnet, daB bei der auf das Sprachkommando 55 
"Fehler" o. a. bzw. auf das Sprachkommando "wie- 
derholen n o. a. folgenden Ausgabe der bisher einge- 
sprochenen Ziffern dieselbe Blockung benutzt wird 
wie bei der Eingabe. 

37. Verfahren nach einem der vorhergehenden An- eo 
spriiche, dadurch gekennzeichnet, daB eine Folge 
von Buchstaben (Buchstabenkolonne) eingespro- 
chen wird, welche zur Auswahl komplexer Funktio- 
nen bzw. zur Eingabe einer Vielzahl von Informa- 
tionen vorgesehen wird, wobei die Buchstabenko- 65 
lonne zusammenhangend oder blockweise einge- 
geben wird und 

• nach jeder Eingabepause eine Quittierung er- 
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folgt, indem der letzte Eingabeblock von der 
Sprachausgabe wiederholt wird, 

• nach der Quittierung durch ein Sprachkomman- 
do "Fehler*, o. a. der letzte Eingabeblock geldscht 
wird und die verbleibenden, gespeicherten Bldcke 
akustisch ausgegeben werden, 

• nach der Quittierung durch ein Sprachkomman- 
do "Ldschen" o. a. alle eingegebenen Buchstaben 
geldscht werden kdnnen, und im AnschluB daran 
eine erneute Eingabe erfolgt, 

• nach der Quittierung durch ein Sprachkomman- 
do Viederholen* o.a. die bisher gespeicherten 
Bldcke akustisch ausgegeben werden kdnnen, 

• nach der Quittierung weitere Buchstaben bzw. 
Buchstabenblocke eingegeben werden kdnnen, 

• gegebenenfalls ein Abgleich der Buchstabenko- 
lonne oder der einzeirien Buchstabenblocks mit ei- 
ner gespeicherten Wortliste erfolgt und daraus das 
(die) bestpassende(n) Wort (Wdrter) extrahiert 
wird (werden) 

• nach der Quittierung durch ein Sprachkomman- 
do "Abbmc^ o. a. die Eingabe der Buchstabenko- 
lonne vollstandig abgebrochen werden kann, 

• nach der Quittierung die Buchstabeneingabe 
durch ein Sprachkommando "Stop" o.a. abge- 
schlossen wird, 

• durch Eingabe eines eine Aktion/Funktion star- 
tenden Sprachkommandos wie Vahien" o. a. die 
Eingabe abgeschlossen wird und die dem Sprach- 
kommando zugeordnete Aktion/ Funktion initiiert 
wird. 

38. Verfahren nach einem der vorhergehenden An- 
sprflche, dadurch gekennzeichnet, daB die Ausga- 
belautstarke der Sprachausgabe und des Kontroll- 
tons den Umgebungsgerauschen angepaBt sind, 
wobei die Umgebungsgerausche wahrend der 
Sprachpausen bezflglich ihrer Starke und Charak- 
teristik erf aBt werden. 

39. Verf ahren nach einem der vorhergehenden An- 
sprtiche, dadurch gekennzeichnet, daB der Zugang 
zum Sprachdialogsystem bzw. der Zugriff auf be- 
nutzerspezifische Daten-Kommandos nur durch 
Eingabe spezieller Kommandoworte bzw. durch 
Eingabe spezieller Kommandoworte eines autori- 
sierten Sprechers erfolgt, dessen Sprachcharakteri- 
stika dem Sprachdialogsystem bekannt sind und 
von diesem gepruf t werden. 

40. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB langer an- 
dauernde Sprachausgaben (z. B. Info-Mentis) durch 
gesprochene oder manuelle Abbruchkommandos 
vorzeitig beendet werden kdnnen. 

41. Verfahren nach einem der vorhergehenden An- 
spruche, dadurch gekennzeichnet, daB das Sprach- 
dialogsystem in einer der folgenden Formen die 
manuelle Bedienung obiger Funktionen (z.B. per 
Schalter, Taste, Drehknopf) erganzt oder ersetzt 

• Die Sprachkommandierung existiert neben der 
manuellen Bedienung, so daB die Bedienung jeder- 
zeit manuell erfolgen bzw. weitergefilhrt werden 
kann; 

• einige spezielle Leistungsmerkmale sind nur per 
Spracheingabe aktivierbar, die anderen Gerate- 
und Bedienfunktionen bleiben sowohl manueil wie 
per Sprache kommandierbar; 

• die Anzahl der manuellen Bedienelemente wird 
deutlich reduziert, einzelne Tasten bzw. Drehkndp- 
fe ubernehmen Mehrfachfunktion. Per Sprache 
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wird manuellen Bedienelementen eine spezielle 
Funktion zugewiesen. Nur wesentJiche Bedien- 
funktionen sind noch manuell ansteuerbar. Die Ba- 
sis ist die Sprachkommandierung. 

42. Verfahren nach einem der vorhergehenden An- 5 
spruche, dadurch gekennzeichnet, daB mit einem 
einzigen Einzelwort-Mehrwortkommando eine 
Vielzahl unterschiedliche Gerate sowie Gerate- 
funktionen ansprech- und modifizierbar sind und 
somit eine mehrstufige Vorgehensweise nicht oder to 
riur in einem geringen Umfang erforderlich ist 

43. Verfahren nach einem der vorhergehenden An- 
sprQche, dadurch gekennzeichnet, daB das Sprach- 
diaiogsystem in Fahrzeugen fOr einzeine oder meh- 
rere der im folgenden genannten Funktionen zur 15 
Anwendung kommt: 

• Bedienung einzelner oder mehrerer Gerate, wie 
z. B. Autotelefon, Autoradio (ggf. mit Kassette, CD- 
Wechsler, Soundsystem), Navigationssystem, Kli- 
maanlage, Heizung, Reiserechner, Beleuchtung, 20 
Schiebedach, Fensterheber Sitzversteller etc. 

• Informationsabfrage von Parametern, wie Ol- 
druck, -temperatur, Wassertemperatur, Verbrauch, 
Reifendrucketc. 

• Information fiber notwendige MaBnahmen, z. B. 25 
bei hoher Wassertemperatur, geringem Reifen- 
drucketc. 

• Warming des Fahrers bei Defekten. 

44. Verfahren nach Anspruch 39, dadurch gekenn- 
zeichnet, daB die sprachgesteuerte Auswahl eines 30 
neuen Senders im Autoradio nach einem der fol- 
genden Ablauf e erfoigt: 

• Kommandierung des Suchlaufs auf- oder ab- 
warts, 

• Spracheingabe der Senderfrequenz, 35 

• Spracheingabe des gebrauchlichen Senderna- 
mens. 

45; Verfahren nach Anspruch 43, dadurch gekenn- 
zeichnet, daB bei der Klimaanlage die gewQnschte 
Temperatur per Spracheingabe relativ oder abso- 40 
lut festgelegt werden kann und zusatzlich eine mi- 
nimale und/oder maximale und/oder mittlere Tem- 
peratur und/oder Normaltemperatur kommandiert 
werden kann. 

46. Verfahren nach Anspruch 43, dadurch gekenn- 45 
zeichnet, daB dem Navigationssystem ein Zielort 
(Ortsname, StraBenname) durch Eingabe von 
Buchstabenkolonnen im "Buchstabiermode" mitge- 
teilt wird, wobei auch der Anfang des Namens als 
Eingabe genQgt und das Navigationssystem gege- 50 
benenf alls mehrere Kandidaten zur Auswahl anbie- 
tet 

47. Verfahren nach einem der Anspruche 43 bis 46, 
dadurch gekennzeichnet, daB eine oder mehrere 
der folgenden benutzerspezifischen Namenslisten 55 
eingerichtet werden: 

• Liste zur Speicherung von Telefonnummern un- 
ter vorgebbaren Namen/Abkurzungen, 

+ Liste zur Speicherung yon Zielen fQr das Navi- 
gationssystem unter vorgebbaren Namen/AbkQr- 60 
zungen, 

• Liste zur Speicherung von Funktionsnamen fur 
Kommandos oder Kommandofolgen, 

• Liste zur Speicherung von Senderfrequenzen 
des Autoradios unter vorgebbaren Sendernamen 65 
bzw. AbkQrzungen. 

48. Verfahren nach einem der Anspruche 43 bis 47, 
dadurch gekennzeichnet, daB die Ausgabelautstar- 
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ke der Sprachausgabe und des Kontrolltons oder 
der Kontrolltdne, ggf. auch die Radiolautstarke und 
die Geblaseeinstellung, unter BerQcksichtigung ei- 
nes oder mehrerer der folgenden Parameter festge- 
legt \yerden: 

• Fahrzeuggeschwindigkeit 

• Drehzahl 

• Offnungsbreite der Fenster und des Schiebe- 
daches 

• Fahfzeugtyp, 

• Wichtigkeit der Sprachausgabe in der jeweiligen 
Dialogsituatton. 

49. Verfahren nach Anspruch 28, dadurch gekenn- 
zeichnet, daB die Push-to- talk-Taste 

• entweder Mehrfachfiinkdonen wahrnimmt odet* 
beinhaltet, z. B. wahrend des Telefonierens ("Aufle- 
gen des Hdrers" "Abheben des Hdrers") bzw. beim 
Neustart des Sprachdiaiogsystems bzw. beim Ab- 
bruch eines Telef on wahl vorganges, 

• oder erganzt wird durch zusatzliche Schalter, 
welche z. B. einen Neustart oder den Abbruch einer 
Funktion erlauben. 

50. Vorrichtung zum AusfQhren des Verfahrens 
nach einem der vorhergehenden AnsprQche, bei 
welcher eine Spracheingabe-Aausgabeeinheit Qber 
eine Sprachsignalvorverarbeitungseiiiheit mit einer 
Spracherkennungseinheit verbunden ist, die wie- 
derum mit einer Ablauf-, Dialog- und Schnittstel- 
lensteuerung verbunden ist, dadurch gekennzeich- 
net daB die Spracherkennungseinheit aus einem 
sprecherunabhangigen Verbundworterkenner und 
einem sprecherabhangigen Zusatz-Spracherken- 
ner besteht, die beide ausgangsseitig mit einer Ein- 
heit zur syntaktisch-grammatikalischen und/oder 
semantischen Nachverarbeitung verbunden sind, 
die mit der Ablauf-, Dialog- und Schnittstellen- 
steuerung verbunden ist. 

51. Vorrichtung nach Anspruch 50, dadurch ge- 
kennzeichnet daB die Sprachsignalvorverarbei- 
tungseinheit eine Vorrichtung zur Gerauschreduk- 
tion und/oder eine Vorrichtung zur Echokompen- 
sation und/oder eine Vorrichtung zur Segmentie- 
rungenthalt 

52. Vorrichtung nach einem der AnsprQche 50 oder 

51, dadurch gekennzeichnet, daB die Spracheinga- 
be-/-ausgabeeinheit einen Sprachencoder, einen 
Sprachdecoder sowie einen Sprachspeicher ent- 

hait 

53. Vorrichtung nach einem der AnsprQche 50 bis 

52, dadurch gekennzeichnet, daB die Ablauf-, Dia- 
log- und Schnittstellensteuerung, die Sprachein- 
Aausgabe sowie die Sprachsignalvorverarbeitung, 
Spracherkennung, syntaktischgrammatikalische 
und semantische Nachverarbeitung mittels mehre- 
rer Mikro- und Signalprozessoren, Speichern und 
Schnittstellenbausteine erfoigt, oder mittels eines 
einzigen digitalen Signal- oder Mikroprozessors 
sowie des erforderlichen externen Daten- und Pro- 
grammspeichers, der Interfaces sowie der zugehd- 
rigen Treiberbausteine, eines Taktgenerators, einer 
Steuerlogik und der fur Sprachein-Aausgabe erfor- 
derlichen Mikrofone und Lautsprecher samt zuge- 
hdriger Wandler und Verstarker sowie gegebenen- 
falls einer Push-to-talk(PTT}- Taste und/oder einer 
Abbruchtaste. 

54. Vorrichtung nach Anspruch 53, dadurch ge- 
kennzeichnet, daB Qber ein Interface 

• Daten und/oder Parameter ladbar bzw. nachlad- 
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-bar sind, um z. B. VerfahrensSnderungen oder ein 
Sprachdialogsystem fflr eine andere Sprache zu 
realisieren, 

# die auf einem separaten Rechner festgelegte 
oder modifizierte Syntaxsitmktur, Dialogstruktur, 5 
Ablaufsteuerung, Sprachausgabe eta auf das 
Sprachdialogsystem fibertragen werden ("off-linie 
Dialog-Editor*). 

55. Vorrichtung nach Anspruch 53, dadurch ge- 
kennzeichnet, daB diese mit mehreren der anzu- 10 
steuernden Ger&te fiber ein Bussystem und/oder 
ein ringfdrmiges Netzwerk verknfipft 1st und daB 
flber diesen Bus bzw. das Netzwerk Steuerdaten 
und/oder Audiosignale und/oder Statusmeldungeri 
desKfa und/oder der zu bedienenden Gerate fiber- 15 
tragen werden/ 

56. Vorrichtung nach einem der AnsprOche 50 bis 
55 fur die Anwendung in Fahrzeugen, dadurch ge- 
kennzeichnet, daB die einzelnen anzusteuernden 
Ger&te nicht jeweils ein eigenes Sprachdialogs- 20 
ystem enthalten, sondern von einem einzigen 
Sprachdialogsystem bedient werden. 

57. Vorrichtung nach Anspruch 56, dadurch ge- 
kennzeichnet, daB eine oder mehrere Schnittstellen 
zu Fahrzeugkomponenten oder Fahrzeugrechnern 25 
bestehen, worfiber permanente oder aktuelle Fahr- 
zeugdaten dem Sprachdialogsystem mitgeteilt wer- 
den. 

58. Vorrichtung nach einem der AnsprOche 55 oder 
56, dadurch gekennzeichnet, daB diese Vorrichtung 30 

wShrend der Wartezeiten, in denen keine Sprach- v 

ein- oder -ausgabe erfolgt, andere Funktipnen 

Obernimmt 

59. Vorrichtung nach einem der AnsprOche 50 bis 

58, dadurch gekennzeichnet, dafl durch erweiterten 35 • 
Speicher ein multilinguales sprecherunabhangiges 
Dialogsystem aiifgebaut wird, wobei kurzfristig 

zwtschen den Dialogsystemen verschiedener Spra- 
chen umgeschaltet werden kann. 

60. Vorrichtung nach einem der AnsprOche 50 bis 40 

59, dadurch gekennzeichnet, daB ein optisches Dis- 
play mit dem Sprachdialogsystem fiber ein speziel- 
les Interface oder fiber den BusanschluB gekoppelt 
ist 

61. Vorrichtung nach Anspruch 60, dadurch ge- 45 
v kennzeichnet, daB dieser Bus ein optischer Daten- 

bus ist und hierfiber sowohl Steuer- wie Audiosi- 
gnale bzw. Statusmeldungen des Kfz und der zu 
bedienenden GerSte fibertragen werden. 

62. Vorrichtung nach einem der AnsprOche 50 bis 50 
61, dadurch gekennzeichnet, daB das vollstandige 
Sprachdialogsystem fiber eine PCMCIA-Schnitt- 
stelle mit dem per Sprache zu steuernden Gerat 
und/oder einem Host- oder Applikationsrechner 
gekoppelt wird 5S 
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